近期,国家天文科学数据中心的左肖雄、陶一寒、许允飞等人与爱因斯坦探针(EP)空间科学卫星团队的刘元、张文达等人开发了一种基于机器学习的X射线源自动分类方法。该方法旨在快速准确地识别EP和其先导设备LEIA观测的X射线暂现源和变源。这一创新方法显著提升了X射线源的识别速度和准确性。基于该方法研发的软件工具已部署应用至EP的数据处理流水线中,为我国这颗今年初发射并于近期转入科学运行的X射线天文卫星的科学探测做出重要贡献。
这一成果以“X-ray Sources Classification Using Machine Learning: A Study with EP-WXT Pathfinder LEIA”为题被天文学专业期刊《Research in Astronomy and Astrophysics(RAA)》接收。论文链接:点击这里。
图1 爱因斯坦探针卫星渲染图,该卫星于2024年1月9日发射升空
X射线天文学对于时域天文的研究具有重要意义。伽马射线暴、活动星系核和X射线双星等很多暂现源和变源都会在X射线波段显示出剧烈、明显的辐射变化。爱因斯坦探针卫星是时域天文学和高能天文领域的前沿卫星,其科学目标是通过软X射线波段的系统性巡天,发现宇宙中的高能暂现源和变源。EP卫星自2024年1月发射入轨以来,两台有效载荷宽视场X射线望远镜(WXT)和后随X射线望远镜(FXT)在轨测试和仪器定标期间获取了多组宇宙天体的X射线科学观测数据。
图2 整体框架
随着EP卫星发射升空并投入使用,如何快速、准确地对这些X射线源进行分类,成为一个亟待解决的问题。该研究利用EP-WXT探路者Lobster Eye Imager for Astronomy(LEIA)的观测数据以及EP-WXT的模拟数据进行研究,将两种数据经过了一定的预处理和重采样后得到数据集。
通过从X射线源的光变曲线、能量谱和星表文件中提取特征,获得包括峰度、偏度等光变曲线的统计学特征,和光子在不同能量段中的分布特征,以及银经、银纬信息等作为训练数据。使用机器学习算法对特征进行训练和学习,构建分类器用于X射线源的分类。研究过程中对比了多种机器学习算法,包括随机森林、XGBoost、KNN、朴素贝叶斯和SVM,基于对比分析结果选择了随机森林作为最终方法。
形成的分类器通过分析X射线源的光变曲线、能量谱和位置信息,并从中提取相关的特征,能够实现高精度的自主分类。在EP模拟数据上,分类器的准确率达到了约95%,在LEIA的真实观测数据上,准确率到达98%。
图3 该方法在LEIA数据分类的混淆矩阵
该分类器已部署应用至LEIA和EP的数据处理流水线中,作为人工验证和实时分类的辅助工具,显著提高了观测期间的分类效率。本研究不仅为EP任务的X射线源快速分类提供了有效的解决方案,而且对于特征选择和X射线源分类的技术提供了宝贵的经验。随着EP和其他时域天文望远镜如LSST、司天等在未来几年的投入使用,这项技术将发挥重要作用,为时域天文研究中的暂现源和变源分类技术提供有力支撑。
图4 该工具已部署应用至LEIA和EP的数据处理流水线