NADC面向AI4S的天文数智化服务体系构建与实践
发布时间:
2026-04-09 16:32
修改时间:
2026-04-09 16:32
文章类别:
阅读次数:
294

写在前面

天文学已全面步入数据密集型科学发现时代,而人工智能驱动的科学研究(AI4S)范式的兴起,对作为国家战略科技力量组成部分的科学数据中心提出了前所未有的能力提升需求。国家天文科学数据中心(NADC)面对海量异构数据的治理压力、传统数据服务模式的效率瓶颈以及支撑前沿AI4S创新的使命,系统性地规划构建了以“数智化”为核心特征的下一代天文数据服务体系。

最近,NADC提交的学术论文《面向AI4S的天文数智化服务体系构建与实践——以国家天文科学数据中心为例》已被《数据与计算发展前沿》接收录用并在知网优先发表。该刊是由中国科学院主管、中国科学院计算机网络信息中心主办的学术性专业期刊。

论文首先完整阐述该体系“三位一体”的总体设计:以应用程序接口(API)和模型上下文协议(MCP)为双核构建标准化与智能化兼备的“数据服务层”;以深度集成数据、软件、算力、模型资源的云端科研平台为承载,打造一站式“科研支撑层”;通过深度嵌入重大科学工程、革新科教融合模式、开展学科和人才建设、拓展公众科学及深化国际合作,培育开放协同的“应用生态层”。接下来,文章剖析该体系在LAMOST天体光谱数据库、AI智能体驱动的天关卫星时域天文发现及公众科学项目中的成功实践,展示其在提升数据智能化供给、降低前沿技术使用门槛、赋能天文学发现等方面的显著成效。

NADC的探索为大数据与人工智能时代国家科学数据中心的功能重塑、能力建设与服务模式创新提供了具有示范意义的系统性解决方案。

下面摘录论文的部分内容。论文原文:点击这里。

一、引言

二十一世纪的天文学,其数据收集能力正在经历一场革命。从地基的大口径综合性望远镜(如郭守敬望远镜LAMOST、中国天眼FAST、鲁宾天文台时空遗珍巡天LSST、平方千米射电望远镜阵SKA)到大视场空间巡天任务(如天关卫星EP、中国巡天空间望远镜CSST、欧几里得卫星Euclid、罗曼空间望远镜Roman),观测设备产生的数据量已从TB量级迈入PB乃至EB时代。这些数据具有多波段、高维度、快时变和异构等特点,构成了人类理解宇宙的宝贵资产,但也带来了数据获取、存储、管理、处理、分析上的巨大挑战。传统以“数据归档-检索-下载-处理”为主线的研究模式日益显得效率低下,而在云平台上“以代码形式高效率地使用数据”逐渐成为科研模式的主流。

虚拟天文台(Virtual Observatory, VO)是国际天文学界为应对大数据时代天文学研究面临的挑战提出的全球化应对方案。2001年成立的国际虚拟天文台联盟(IVOA)致力于为实现天文数据的互操作制订有关的标准和规范,使数据产品生成、管理和使用的各个环节都在标准的框架下进行。20多年来,IVOA已经制定了数十项技术标准和规范,成为全球天文数据融合和互操作的基础框架。

Python是当前科学研究以及人工智能领域占主流地位的程序语言。Astroquery和Astropy则为天文学架构起了一个从数据获取到高级分析的标准Python软件生态系统。Astroquery提供了标准化的数据获取接口,用于程序化访问世界各大天文数据中心(如斯特拉斯堡天文数据中心CDS、美国航天局河外数据库NED、加拿大天文数据中心CADC、米库斯基空间望远镜数据库MAST等)的数据库。它将复杂的数据查询过程简化为Python函数调用,极大提高了数据获取效率。Astropy作为核心分析与计算基础库,提供了现代天文学研究所需的软件基础设施。在实际科研应用中,二者协同构成完整工作流:先用 Astroquery获取数据,然后用Astropy进行处理分析。

在线科学研究平台,天文学界叫做科学平台(Science Platform),更多科学研究领域称之为开放科学云(Open Science Cloud),为科研活动提供一站式的集成环境,解决数据、工具、算力分离的问题。

科学平台是一种基于云计算的、为科学研究专门设计和优化的集成化在线环境。它的核心目标是将研究人员从繁琐的数据管理、软件安装、环境配置和计算资源协调等“IT运维”工作中解放出来,而专注于科学研究本身。科学平台通常由大型科研机构、天文台或国际合作项目构建和维护,如欧洲空间局的Datalabs、加拿大天文数据中心的CANFAR (Canadian Advanced Network for Astronomy Research)、约翰霍布金斯大学的SciServer、鲁宾天文台的Rubin Science Platform等,并直接与大型科学数据库或数据中心(例如盖亚天文卫星数据库、斯隆数字化巡天项目、LSST)深度集成。

中国、欧洲、非洲等很多国家和地区都提出了各种类型的开放科学云计划。美国科学云(AmSC),作为美国“创世纪”计划的核心内容之一,2025年底被正式提出。

近年来以机器学习和大语言模型(LLM)为代表的新一代人工智能(AI)技术发展迅猛,应用和影响渗透到包括科学研究在内的方方面面。AI在天体分类、参数测量、异常检测、观测规划等方面展现出颠覆性潜力。人工智能驱动的科学研究(AI4S)正成为全球科技竞争的新焦点。

AI4S不仅要求高质量的标注数据集作为训练素材,更需要一个能将数据、算法、算力以及领域知识无缝集成,并支持自动化、智能化分析的研究环境。科学数据的供给和使用模式亟需数智化转型。

数智化是将数据与智能深度融合,利用人工智能对数据进行分析、挖掘和洞察,进而驱动业务创新和范式变革。智能化是让机器能够执行通常需要人类智能才能完成的任务,如识别、推理、决策等。数字化则是将模拟信息转化为二进制代码。数字化、智能化、数智化三者的关系并非简单的线性替代,而是一种递进关系,并且在实际系统中往往会长期并存。

国家天文科学数据中心(National Astronomical Data Center, 简称NADC),其前身可追溯至1989年成立的世界数据中心中国中心天文学科中心。历经三十余载发展,NADC已从最初的国际数据引进和国产数据归档中心,成长为承担数据汇交管理、永久保存、开放共享、应用服务以及支撑重大科技任务的新型科研基础设施。在数据洪流与AI浪潮的双重冲击下,NADC的使命正在发生深刻演变:不仅是数据的“保管者”,更应成为数据的“赋能者”和科学发现的“加速器”。

面对新范式带来的机遇与挑战,NADC正在构建以“数智化”为核心的下一代天文数据服务体系,以解决下面几个核心问题:(1)如何打破数据孤岛,实现海量多源异构数据的标准化、可编程访问?(2)如何降低AI等先进技术在天文研究中应用的技术门槛?(3)如何构建一个能支撑从数据发现到知识产生全流程的线上科研环境?(4)如何最大限度地释放数据价值,促进跨社区、跨领域的协同创新?本文旨在系统阐述这一体系的架构、内涵、关键技术与应用成效,以期为大数据与智能时代国家科学数据中心的功能重塑、能力提升与服务创新提供具有示范意义的系统性解决方案。

 

二、数智化服务体系的总体架构

NADC数智化服务体系是一个层次分明、相互协同的有机整体,其核心是构建一个以智能数据服务为“脉络”、以云端科研平台为“躯干”、以开放应用生态为“场域”的“三位一体”框架(图1)。数据的科学价值通过服务、平台、生态从其本身流向应用,在这个过程中AI赋能得到不断加强。

1. 核心层:智能化数据服务(API + MCP)

这是整个体系的技术基石和内在脉络,目标是实现数据与工具服务的“可发现、可访问、可互操作、可重用(FAIR)”以及“可被智能体理解与调用(AI-ready)”,让科研资源能被以可编程的方式访问和使用。

▶ API标准化:解决“可编程访问”问题

图1 NADC数智化服务体系总体架构图  Fig. 1 The conceptual framework of NADC’s intelligent data service system

NADC规划了全面支持IVOA数据互操作标准,采用RESTful架构与OpenAPI规范的astroquery数据服务接口。这消除了数据访问对特定图形界面的依赖,使得科研人员可以通过Python等程序脚本进行批量、自动化的数据获取与分析流程编排,极大提升研究效率。同时,遵守IVOA制定的元数据和数据访问标准可确保中心服务与国际天文数据生态系统的无缝对接和互操作。

▶ MCP智能化:解决“可智能交互”问题

在数据对LLM的支撑访问中,MCP(模型上下文协议)发挥着将外部数据源和工具安全、结构化地连接到大语言模型应用的桥梁作用(图2)。它通过标准化的方式,使得模型能够实时、按需地调用和访问数据库、API接口、文件系统或特定工具,而无需将这些庞大或动态变化的数据全部预先训练进模型参数。这极大地扩展了模型的实时信息获取与专业能力边界,同时保障了数据源的安全可控。MCP协议有效解决了大模型知识滞后、缺乏领域专长和无法直接操作外部系统的问题,是实现模型从静态知识库向动态、可扩展智能体转变的关键技术基础。

图2 MCP应用架构  Fig. 2 MCP application framework

在标准化API的基础上,NADC将数据服务包装成一个个MCP工具,每个工具都有清晰的自然语言描述、输入参数定义和输出格式规范。任何支持MCP协议的AI模型和智能体都能自动发现、理解并安全地调用这些工具,实现了“让数据服务直接与AI对话”。

NADC以API和MCP为数据智能化服务的内在核心,同时支持经典但仍主流的程序访问以及新兴的模型调用,达到FAIR和AI-ready的标准。另一方面,无论是实现API还是MCP,前提都要求数据库(集)有完整、规范的元数据。这将倒逼数据中心做好数据和元数据的质量控制,进而促进数据中心的数据资源建设,提升数据本身的规范性和权威性。

 

2. 承载层:数智化科研支撑平台

在线科学研究平台,是本体系的能力载体。NADC基于云计算和容器化技术构建了China-VO科学平台(China-VO Science Platform)。其核心特征与价值在于以下几个方面:

1)无缝的数据集成与访问。研究人员无需手动下载TB甚至PB级别的数据,可以通过平台直接在线访问、查询和使用数据。数据与计算资源在物理上就近部署,极大地减少了数据传输的瓶颈。

2)即开即用的分析环境。平台大多预装了特定学科领域(如天文学)所需的完整软件栈、工具包、编程环境和常用代码库。用户登录后即可获得一个配置好的工作空间,无需经历复杂的本地安装和软件调试过程。

3)弹性可扩展的计算资源。科学研究对算力的需求往往是突发和波动的。科学平台利用云计算的弹性优势,让研究人员可以根据任务需求动态申请CPU、GPU、DCU或内存资源,并在任务完成后及时释放。这使得研究人员无需自建和维护昂贵的计算集群,就能按需使用超算级别的能力。

4)原生支持开放科学与协作生态。平台本身设计就鼓励开放科学实践。所有数据、软件、分析流程都可以在平台上被共享、协同和复用。不同地域、机构的研究者可以在同一份数据副本、同一个分析环境中协同工作,极大地提升了研究的可重复性、透明度和合作效率。

在提供科研便利性的同时,NADC在服务体系建设中已开始探索针对AI应用的风险控制机制:一是数据与计算隔离,实行严格的读写权限分离,确保AI计算不污染原始科学数据;二是算法本地化,优先采用开源LLM进行本地化部署与微调,杜绝内部数据外泄;三是约束幻觉与人工干预,通过引入检索增强生成锚定专业天文知识库,在关键决策节点强制引入专家复核,确保结论的严谨与可靠。

 

3. 扩展层:开放协同的数据应用生态

应用生态是数智化服务体系实现可持续发展、持续创造价值并深刻融入现代科研范式的顶层设计。其核心目标是通过构建一个多层次、多维度的协同创新网络,将数据、算力、平台、模型能力深度整合并赋能于科学研究的完整生命周期,从而将中心从传统的“数据资源库”重塑为“科研创新共同体”的基础设施。这一思路不仅响应了当前数据密集型天文学对开放、协同、可复现研究的迫切需求,也与国际科学数据基础设施(如欧洲开放科学云EOSC,美国NASA数据云NASA-SC)所倡导的FAIR原则和开放科学的理念相契合。生态构建的主要措施包括以下几个方面。

1)深度嵌入重大科学工程,前置数智化服务理念,通过“设计即服务”的模式从源头上保障未来产出的科学数据符合FAIR和AI-ready框架。

2)全面拥抱开源与开放科学,构建共建共享社区。将自主研发且功能通用性好的基础软件、数据处理工具和算法代码开源。另一方面,科学平台提供接入端口,鼓励用户和合作团队将自行开发的算法、模型乃至完整的分析流程以容器化等形式集成到平台上,转化为可被社区共享和引用的服务,实现了从“中心提供”到“社区共建”的转变。响应开放科学倡议,推动科研资源的开放获取。

3)革新天文科研教育模式,培养面向未来的实践能力。将数智化服务体系转化为强大的教育教学平台,培养新一代研究人员基于云原生环境的科研习惯和开放协作能力。

4)搭建高水平交流平台,促进学术交流与复合型人才培养。通过课程、学术会议、技术培训、夏(冬)令营等多种渠道为学科交叉领域输送亟需的复合型人才。

5)开发公众科学项目,构建“众智协同”的发现与标注生态。NADC通过打造和运营China-VO公众科学平台成功实践了公众参与发现并产生标注数据,科学家使用数据进行专业模型的训练优化,最终专业模型促进科学产出,并反哺公众科学项目的流程。这种良性的人机协同生态,将科学传播、前沿研究和技术发展紧密融合。

6)深化国际合作与标准引领,提升全球影响力与话语权。通过发起工作组、委员会,在国际组织中担任重要职务,向国际社会输出数据和技术资源,开展双边、多边人员交流和培训等,在数据共享、联合观测、平台互联等领域拓展合作网络,在全球科学数据治理中贡献中国方案。

通过上述多种举措系统化地构建开放协同的科学数据应用生态,将数智化服务体系从一个技术平台,拓展为一个融汇重大工程、开源社区、科研教育、公众参与和国际合作的动态创新网络。同时,通过贡献者联合学术署名、数据引用追踪、公众科学参与者荣誉体系等措施建立激励反馈机制,实现生态的自生长。

 

三、总体应用情况

NADC的数智化服务体系构建实践已经涌现出LAMOST光谱数据库、AI智能体驱动的天关卫星时域天文发现、China-VO公众科学等亮点成果,开始展现出良好的应用效果和发展潜力。

基于混合云和容器技术打造的China-VO科学平台同时支持NADC、微信、ORCID、中国科技资源共享网、中国科技云、中科院邮箱、中科院高能所等跨平台账号的统一登录,用户通过普通网络浏览器便可轻松访问平台集成的天文台站、高校、公有云、科研机构等的网络、存储、计算等硬件资源和NADC集成的数据、软件、模型等软件资源,显著提升了用户开展科学研究的便利性。China-VO科学平台已经集成的科研资源主要有:

1. 核心天文数据资源245套,其中包括:光谱巡天数据(LAMOST、DESI暗能量光谱巡天数据等)、多波段图像巡天数据(DESI legacy surveys DR9/DR10、PanSTARRS DR1/DR2、GAIA DR1/2/3、J-PLUS DR3、SkyMapper DR4、Euclid Q1、AllWISE/CatWISE、eROSITA DR1等)、论文数据(为论文产出数据进行长期存储,并提供DOI和CSTR标识注册服务,已收录212个科学论文数据集)等。科学平台的科学数据模块提供了详细的科学数据列表及数据检索功能。

2. 预置软件环境。通过容器技术预置了数十个涵盖光学、射电、高能等不同天文方向以及支持Python机器学习生态的标准化软件环境,主要包括交互式集成开发环境(VSCode、JupyterLab)和天文专业数据分析软件(Iraf、Topcat、DS9、Carta、MESA、Gildas、SolarSoft、HEAsoft、Scisoft等)。

3. 弹性计算资源。通过自主开发的跨域多中心协同任务调度系统已集成超过3000个CPU核心和多种GPU卡的计算资源,并支持计算能力的动态扩容。用户既可以进行交互式分析,也可以提交大规模批量并行计算任务。

4. AI模型服务门户。提供统一的天文AI模型服务门户,集中发布和部署NADC自研及合作的天文领域AI模型,如“天一大语言模型”、 “FALCO光变分类模型”、“SpecCLIP光谱分析模型”等,支持在线交互与API调用。

China-VO科学平台已支撑了包括多源数据全生命周期管理、大规模光谱分析、星系图像深度学习、特殊天体搜寻在内的众多科研项目。在数据汇聚方面,实现了多类型、多波段天文数据的汇聚,已经支撑LAMOST、云南2.4米、Song望远镜、兴隆望远镜等众多望远镜观测数据的自动归档与保存。在数据发布与访问方面,实现了数据的规范化发布和统一访问,突破地域和机构限制,实现了国际数据互操作。通过整合TOPCAT、Firefly等国际化数据访问工具,扩展了用户获取大规模国际数据的渠道及便利性。

基于平台完成科研任务并已正式发表研究论文的课题如:基于人机协同方法的 LAMOST 中分辨率光谱双星谱线候选体挖掘、利用J-PLUS DR3 数据的类星体候选体筛选及红移估计方法研究、基于CNN-MLP方法的DESI 遗产成像巡天发射线星系的测光红移估计方法研究、基于CatBoost与SPE的 4XMM-DR13年轻恒星体搜寻等。

生态建设方面:深度参与了EP、CSST、环月低频射电天文台(鸿蒙计划)卫星、太阳物理天文台(SPO)等一系列重大项目的科学应用系统与数据管理系统的顶层设计;基于科学平台开发的 “面向高等教育场景的云端天文数据处理环境”已成功支撑中国科学院大学、中山大学等高校的《天文数据处理》、《实测天体物理》等多门核心课程长达十余年,累计服务数千名研究生;自2001年起每年主办的 “天文信息学与虚拟天文台学术年会” 已成为国内领域内规模最大、影响力最广的学术交流品牌;连续15年组织全国天文教师互动式教学培训;在中国天文学会学术年会上常态化组织 “数据、软件和人工智能专题培训”和 “人工智能与天文大数据”分会场;在中国科学院大学已连续3学年开设 《天文信息学基础》研究生课程并出版《天文数据处理与虚拟天文台》教材;China-VO公众科学平台运营的公众科学项目自2015年至今累计吸引超十万人次参与,并促进产出了发表于《自然》等顶尖期刊的科学发现;中心成员担任IVOA主席、国际天文学联合会(IAU)数据与文献委员会主席、天文数据软件分析系统(ADASS)程序委员会委员、IVOA工作组主席等职务;发起IAU数据驱动的天文科普教育工作组(DAEPO);积极参与金砖国家天文工作组、一带一路多边合作;将LAMOST等国产数据无缝集成至ESASky、SDSS SkyServer/CasJobs等国际权威天文数据平台。

 

四、 挑战与对策

数据中心属于典型的混合资源型平台,在大数据、云计算和人工智能时代迎来前所未有的机遇,但同时也面临很多新的和一直难以解决的挑战。主要表现在如下几个方面:

1. 长期运营成本:云平台与高性能计算资源的持续运维、软件环境更新、数据存储备份等需要稳定的经费支持和有效的运营模式。多元化运营是一个值得探索的方向,即政府和科研机构的稳定投入+平台资源有偿使用+商业合作反哺。

2. 技术迭代风险:AI与云计算技术发展迅猛,如何平衡技术前瞻性与系统稳定性是一大挑战。这需要在稳定的核心系统与快速变化的前沿技术之间,建立一个清晰的边界,通过渐进式的方式引入新技术。

3. 数据安全与隐私:在提供开放智能服务的同时,需建立更完善的数据分级分类、访问控制和审计机制。

4. AI4S的伦理与可解释性风险:在利用 AI 智能体自动化执行科研任务时存在算法黑箱导致的结果不可解释风险。LLM可能产生的幻觉现象若无严密的逻辑校验和人在回路的审核机制会导致错误的结论。建立AI产出结果的自动化验证体系与责任回溯机制非常关键。

5. 复合型人才短缺:既精通天文,又掌握计算机科学、数据科学和AI技术的跨学科人才极其匮乏。这需要从人才培养模式、跨学科协作机制以及降低技术门槛等维度进行系统性设计。在短期内解决人才短缺的有效方法是优化现有团队的协作模式。

国家科学数据中心需要在这些挑战面前不断探索最佳平衡点。

 

五、 对其他学科领域的普适性意义

国家天文科学数据中心的实践为其他数据密集型基础科学领域(如高能物理、空间科学、生命科学、环境生态学、地球科学等)的国家科学数据中心建设提供了可资借鉴的范式。

1. “API+MCP”是构建智能数据服务的通用路径,可普遍用于将领域数据服务标准化并赋能给AI。

2. “云端科研平台”是集成科研要素的有效模式,实现“就近计算”和“数据不落地”的科学研究。当然,在网络带宽有限的前提下,大规模异地数据的融合分析是科学平台无法逾越的障碍。核心数据的集中存储仍然是最现实的选择。

3. “开放生态”是保持服务活力的关键,能确保数据中心与科研社区共融共生,持续发展。

 

六、结论与展望

当前AI应用正处于从大模型参数竞争转向构建智能体和工具使用的关键期。

国家天文科学数据中心面对数据密集型与AI驱动的科研新范式,提出并成功实践了一套以“智能化数据服务、云端化科研平台、开放协同数据生态”为特征的数智化服务体系。NADC三十多年的实践生动呈现了数字化(海量数据的汇聚)、智能化(AI分类模型、参数测量工具等)、数智化(服务体系)的演进、融合与并存。在LAMOST、天关卫星、公众科学等多项实践中所取得的成效,证明了该体系在提升天文数据服务水平、赋能前沿科学研究方面的巨大潜力和发展前景。

面向建设科技强国的使命和需求,国家天文科学数据中心将重点推进以下工作:一是深耕智能体和具身智能技术,研发更多面向特定科学目标的学科领域智能体(如“系外行星证认智能体”、“潮汐瓦解事件监测智能体”);二是推进科学平台间的互联互通,借助平台云原生优势和统一认证方案,在更大范围内实现在线科研新范式;三是拓展国际合作新维度,在AI天文数据标准、模型共享协议等方面积极贡献,努力引领;四是加强跨学科交叉协同,与计算机、数学等领域深度合作,在天文AI基础算法上取得突破。

国家天文科学数据中心将持续深化数智化转型,使中心能更好地肩负起作为国家战略科技力量的使命,成为引领天文学进入数据密集型科学发现新时代的重要资源平台和技术力量。

 

致谢:感谢所有为天文科学数据中心发展做出贡献的领导、同事、国内外合作伙伴与用户。

)
Yang Hanxi
(文章编辑:
我们使用cookies为您提供更好的体验。继续使用本网站,即表示您同意按照我们的Cookie 政策使用cookie。
接受