由北京智源人工智能研究院主办,国家天文台、数据评测平台biendata联合举办的天体分类数据竞赛于2020年1月开赛。本次比赛旨在鼓励大众参与到天文学的探索当中,利用最新的人工智能算法分析望远镜收集到的真实科学数据。
比赛海报
比赛时间
2020年1月15日-4月2日
参赛地址
https://biendata.com/competition/astrodata2019/
天文学是一门古老的学科,从古至今,人类从未停止过仰望星空、探索宇宙的脚步。而随着观测技术的不断发展,天文学已经进入大数据时代,天文数据正在以PB甚至EB量级的速度不断增长。海量的数据为天文学研究带来了机遇,也迎来了挑战。
郭守敬望远镜采集到的光谱图像
在天文学中,光谱描述了天体的辐射特性,以不同波长处辐射强度的分布来表示。天体的观测光谱主要是由黑体辐射产生的连续谱、天体中元素的原子能级跃迁产生的特征谱线(吸收线、发射线)以及噪声组成。天文学家依据光谱的特征谱线和物理参数就可以判定出天体的类型。
LAMOST望远镜又称为郭守敬望远镜(大天区面积多目标光纤光谱天文望远镜)是一架中国天文学家发明的大视场兼备大口径的新型光学望远镜。它的视场和口径规模都居世界领先地位,焦面上的4000根光纤可以同时获得4000个天体的光谱。LAMOST 每个观测夜晚能采集万余条光谱,是世界上光谱获取率最高的望远镜。LAMOST在大规模光学光谱观测和大视场天文学研究方面,居于国际领先地位。
郭守敬望远镜
在目前LAMOST发布的巡天数据中,光谱主要被分为恒星、星系、类星体和未知天体四大类。 LAMOST数据集中的每一条光谱提供了3690-9100埃(1埃=0.1纳米)的波长范围内的一系列辐射强度值。光谱自动分类就是要从上千维的光谱数据中选择和提取对分类识别最有效的特征来构建特征空间,例如选择特定波长或波段上的光谱流量值等作为特征,并运用各种算法对天体进行区分。传统的人工或半人工的利用模板匹配的方式不能很好应对,需要高效而准确的天体光谱智能识别分类算法。
在本次大赛中,中国科学院国家天文台提供了LAMOST DR4数据集中近100万个天体的光谱数据,由国家天文科学数据中心基于科学发布版本制作成机器学习数据集。选手们将以LAMOST巡天光谱分类为题,利用高效、高准确率的自动化算法,将未知天体分成恒星(star)、星系(galaxy)和类星体(QSO)三类,以期用最新的人工智能技术来解决天文研究中的实际问题。
国家天文科学数据中心常务副主任、国家天文台中国虚拟天文台团队负责人崔辰州博士表示,天文大数据不断拓展着人类对宇宙认知的边界。作为科学数据的代表,天文数据标准化程度高、体量丰富且具有高度复杂性,是机器学习、数据挖掘等算法训练的优质样本。希望本次大赛能发掘出更多跨学科人才,不仅能够推动AI行业的进步,更可以助力天文学产出更多、更好的科研成果。