近日,平方公里阵列射电望远镜(Square Kilometre Array, SKA)的首个科学数据竞赛(SKA Science Data Challenge #1, SDC1) 成果总结已在MNRAS发表。上海天文台作为参赛团队参与了该竞赛,并在总评分名列首位。 论文链接:点击这里。
SKA首个数据竞赛于2018年启动,2019年4月结束。全球共有9支团队按时提交结果。上海天文台于竞赛启动即组织人员进行规划准备,展开前期测算,中期虽因数据的重新发布而需要对所有数据进行重新处理分析,但参赛团队保持积极应对,经过半年多的努力,反复讨论完善数据分析,完成竞赛。
作为SKA科学准备的一部分,SKA的数据竞赛项目,旨在通过数据竞赛帮助研究人员进一步熟悉SKA将发布的数据,对SKA数据处理流程进行考察和完善,并将作为一个常规项目进行发布。SKA数据竞赛针对不同的数据处理需求,发布4个层级的真实或模拟数据,第一层级,对望远镜产生的原始数据进行处理;第二层为已校准的观测数据产品,由SDP科学数据处理为SRC区域中心提供,并由区域中心进行处理提供给获得观测申请的科研人员; 第三层级为更进阶的数据产品,涉及该层级的数据竞赛将致力于科学目标的研究,以及相关的算法开发;而第四层级,则针对最终的科学成果,也是所有观测和分析的最终目标。
其首个数据竞赛侧重于第二、第三层级的数据与处理。主要竞赛内容包括天体搜索与定位,天体亮度、中心核大小、倾角等参数拟合及天体分类,并针对天体搜索的可信度、完备度、天体拟合与分类的准确性等方面进行结果评估。此次所提供的竞赛数据共包含代表SKA中频望远镜的3个波段、代表3种望远镜观测模式的3种积分时间的总共9个FITS图像,每个图像大小达4GB, 结合各团队的分析结果,单个图像中探测出天体数量最多可达几十万颗。
在此次竞赛中,上海天文台团队采用了数据前期分析,算法筛选,交叉验证,参数调优等路径。团队首先对所有竞赛数据开展统计分析,了解数据结构,天体群组特征,确定用于数据处理的输入参数范围,进而基于针对SKA不同先导项目而开发的天体搜索算法对图像进行了先期测试,经过对结果的准确度与计算效率的评估,选取表现较好的算法结果进行交叉验证,得到准确率最佳的算法完成对所有图像的天体搜索与天体形态的拟合。通过特定阈值的连续像素岛的提取来识别天体,通过例如二维高斯模型对天体亮度分布进行拟合,测算天体的大小角度,并通过主波束信息对天体总流量密度进行修正。而面对如此从庞大数据的处理,普通计算机无法全部完成,为此,团队借助上海天文台的SKA区域中心原型机系统完成了不同环节的数据处理工作。
国家天文科学数据中心为天文观测设备和研究计划提供数据与技术服务。
图1:所有团队天体搜索结果的完备度(左图)与可靠度(右图)情况(自上而下为560 MHz、1.4 GHz和9.2 GHz频段),
上海天文台的分析结果由蓝色线条表示。
新闻来源:http://www.shao.cas.cn/2020Ver/xwdt/kyjz/202011/t20201117_5751066.html