NADC流水线管理系统AstroFlow正式发表
发布时间:
2026-06-16 17:06
修改时间:
2026-06-16 12:16
文章类别:
阅读次数:
101

近日,国家天文科学数据中心(NADC)的研究团队完成的论文《AstroFlow: A customizable workflow management system for astronomical data production and case study of EP-WXT》在《Astronomy and Computing》的4月刊正式发表。团队总结了三年来在天关卫星(EP)数据处理流水线建设与运行中的实践经验,针对天文数据生产过程中系统集成困难、任务协同复杂、算法快速迭代需求强、处理流程难以灵活扩展以及数据全流程追溯不足等问题,结合天文学领域业务特点与 IVOA 相关标准,通过容器化、消息队列等技术构建打造了通用、易编排的流水线管理系统AstroFlow,为未来空间天文和时域天文项目的数据处理流水线建设提供了一种可复用的解决方案。论文链接:点击这里。


背景:天文数据处理挑战

随着时域天文学的发展,自动化、高效的数据处理成为保障科学产出的关键。大型巡天项目日益呈现国际化合作趋势,但多机构开发的算法在系统集成、调度能力、可扩展性和可追溯性方面面临严峻挑战。例如,EP任务涉及国家天文台、高能物理研究所、马克斯·普朗克地外物理研究所等全球多个机构,软件环境和技术栈差异大、工作流复杂,传统系统难以胜任。
任务调度:消息队列动态调度复杂工作流​
数据处理流程常涉及回溯执行和动态并行关系,例如EP-WXT流水线中,光子事例数据与辅助数据需多次匹配,观测号的数量运行时才确定,传统有向无环图(DAG)模型难以表达此类拓扑结构(图 1)。AstroFlow通过消息队列(如RabbitMQ)技术解耦控制与执行模块(图 2),设计动态DAG生成器,实时解析节点输出消息,动态创建后续任务队列。结合智能调度器,支持基于优先级和资源利用率的弹性调度,有效处理了回溯执行、动态数量后继节点及基于优先级的任务调度场景。

图 1 有向无环图(DAG)流水线模型(左)及两种难以用DAG描述的变体:不定数量后继节点(中)、回溯执行(右)。

 

图 2 基于消息队列技术解耦控制和执行模块

 

可扩展性:CI/CD管道与插件机制支持敏捷部署​

随着算法迭代加速,工作流需频繁更新模型参数。AstroFlow引入持续集成/部署(CI/CD)管道,通过Git钩子触发自动化镜像构建、测试和推送。系统提供插件机制,研究人员仅需封装容器镜像并配置前驱节点依赖关系,即可快速集成新功能,通过消息进行触发而无需更改主干流程。这一非侵入式设计,既保证了流水线的灵活扩展,又保障了系统整体稳定性。对于不适合集成到流水线编排框架的算法,可以在本地笔记本或个人服务器上监听流水线消息灵活触发(图 2)。该框架提供的两种扩展机制,使得算法研发到生产部署的周期从传统的数周缩短至数小时,大幅降低了技术门槛与协作成本,既满足了大型项目对稳定性的要求,也兼顾了前沿探索所需的敏捷性与灵活性。

数据追溯:遵循IVOA Provenance标准实现全链路追溯​
天文数据产品需满足可重现性要求,但传统记录方式侵入性强、元数据信息难以保障。AstroFlow基于国际虚拟天文台联盟(IVOA)Provenance数据模型(图 3),通过切面注入机制非侵入式记录活动实体关系(如WasGeneratedBy、Used等)。每个节点执行前后自动捕获输入参数、输出结果和时间戳,生成可视化溯源图谱(图 4),支持故障追踪和科学重现。

图 3 IVOA Provenance 模型示意图

图 4 数据来源去向追溯图谱

 

系统集成:容器技术实现环境隔离与自主开发​

在天文大数据时代,EP等大型巡天项目涉及国内外多个研究机构(如国家天文台、高能物理所、马克斯·普朗克地外物理研究所等),各团队开发的软件依赖环境各异,导致集成时易出现兼容性冲突。例如,Python库版本不匹配、操作系统差异等引发的问题频发,传统统一环境部署方式效率低下。AstroFlow采用容器化技术,将每个数据处理模块封装为独立Docker镜像,实现环境隔离。通过Kubernetes集群进行资源调度,支持GPU等异构硬件分配,使各团队可自主选择技术栈,无缝集成至工作流。这一设计显著提升了协作效率,在EP任务中支持了300余次算法敏捷更新。

 

应用:支持EP任务取得显著科学产出

Astroflow已先后应用于龙虾眼天文成像仪(LEIA,2022年发射)和天关卫星(EP,2024年发射)。EP科学应用系统累计处理超过2万次常规观测、17万次FXT观测,以及2.1万次VHF和北斗警报,累计检测超过1.7万个源和近200个暂现事件,支撑EP科学中心发表12篇高水平科研论文。AstroFlow作为其中的天文数据生产流程编排系统,已持续稳定服务近三年,集成20余个算法镜像,并支撑300多次算法版本迭代与部署更新。WXT数据处理平均耗时约28分钟,北斗警报延迟约5分钟,满足时域天文对快速响应的需求。面向未来AI驱动的数据密集型科学研究新趋势,AstroFlow具有容器化与动态编排能力,为机器学习模型快速迭代、多算法协同分析、异构计算及智能暂现源识别提供了灵活支撑,将为太阳极轨卫星等望远镜的智能化天文数据处理与科学发现提供有力保障。

论文第一作者为国家天文台张震博士,通讯作者为许允飞副研究员与崔辰州研究员,合作者包括刘元研究员和樊东卫正高级工程师。

)
Yang Hanxi
(文章编辑:
我们使用cookies为您提供更好的体验。继续使用本网站,即表示您同意按照我们的Cookie 政策使用cookie。
接受