NADC针对空间科学卫星研发基于机器学习的X射线源分类方法 | 国家天文科学数据中心

近期，国家天文科学数据中心的左肖雄、陶一寒、许允飞等人与爱因斯坦探针（EP）空间科学卫星团队的刘元、张文达等人开发了一种基于机器学习的X射线源自动分类方法。该方法旨在快速准确地识别EP和其先导设备LEIA观测的X射线暂现源和变源。这一创新方法显著提升了X射线源的识别速度和准确性。基于该方法研发的软件工具已部署应用至EP的数据处理流水线中，为我国这颗今年初发射并于近期转入科学运行的X射线天文卫星的科学探测做出重要贡献。

这一成果以“X-ray Sources Classification Using Machine Learning: A Study with EP-WXT Pathfinder LEIA”为题被天文学专业期刊《Research in Astronomy and Astrophysics（RAA）》接收。论文链接：点击这里。

图1 爱因斯坦探针卫星渲染图，该卫星于2024年1月9日发射升空

X射线天文学对于时域天文的研究具有重要意义。伽马射线暴、活动星系核和X射线双星等很多暂现源和变源都会在X射线波段显示出剧烈、明显的辐射变化。爱因斯坦探针卫星是时域天文学和高能天文领域的前沿卫星，其科学目标是通过软X射线波段的系统性巡天，发现宇宙中的高能暂现源和变源。EP卫星自2024年1月发射入轨以来，两台有效载荷宽视场X射线望远镜（WXT）和后随X射线望远镜（FXT）在轨测试和仪器定标期间获取了多组宇宙天体的X射线科学观测数据。

图2 整体框架

随着EP卫星发射升空并投入使用，如何快速、准确地对这些X射线源进行分类，成为一个亟待解决的问题。该研究利用EP-WXT探路者Lobster Eye Imager for Astronomy（LEIA）的观测数据以及EP-WXT的模拟数据进行研究，将两种数据经过了一定的预处理和重采样后得到数据集。

通过从X射线源的光变曲线、能量谱和星表文件中提取特征，获得包括峰度、偏度等光变曲线的统计学特征，和光子在不同能量段中的分布特征，以及银经、银纬信息等作为训练数据。使用机器学习算法对特征进行训练和学习，构建分类器用于X射线源的分类。研究过程中对比了多种机器学习算法，包括随机森林、XGBoost、KNN、朴素贝叶斯和SVM，基于对比分析结果选择了随机森林作为最终方法。

形成的分类器通过分析X射线源的光变曲线、能量谱和位置信息，并从中提取相关的特征，能够实现高精度的自主分类。在EP模拟数据上，分类器的准确率达到了约95%，在LEIA的真实观测数据上，准确率到达98%。

图3 该方法在LEIA数据分类的混淆矩阵

该分类器已部署应用至LEIA和EP的数据处理流水线中，作为人工验证和实时分类的辅助工具，显著提高了观测期间的分类效率。本研究不仅为EP任务的X射线源快速分类提供了有效的解决方案，而且对于特征选择和X射线源分类的技术提供了宝贵的经验。随着EP和其他时域天文望远镜如LSST、司天等在未来几年的投入使用，这项技术将发挥重要作用，为时域天文研究中的暂现源和变源分类技术提供有力支撑。

图4 该工具已部署应用至LEIA和EP的数据处理流水线