近日,国家天文科学数据中心对外发布了LAMOST光谱分类机器学习数据集,它基于LAMOST DR3光谱数据制成,经数据处理后形成了一个可用于光谱分类机器学习的标准数据集。该数据曾用于2018年阿里云天池大赛天文数据挖掘赛道。
天文数据标准化程度较高、复杂性强,非常适合开展算法模型研究。近年来,国家天文科学数据中心充分挖掘天文数据潜力,积极推动科学数据在其他行业中的应用,同时促进天文领域中机器学习算法的研究。
数据集信息
此次发布的数据集包括训练集和测试集,均含有索引文件(index.csv)和光谱文件(.txt)两部分:索引文件的第一行是字段名,之后每一行代表一条天体光谱。训练集和测试集第一个字段均为光谱文件id号,训练集还包括一个分类标签字段。train_data.zip和test_data.zip中是以txt格式存储的经过插值采样光谱,所有光谱波长区间和采样点相同,波长范围是3800-9000Å采样点个数都是2600个。
数据发布页面:https://nadc.china-vo.org/res/r100658/
多年来,LAMOST数据已经在科学数据跨行业应用领域形成多个典型案例。
- 案例1:天体光谱智能分类天池大赛
2018年,中国科学院国家天文台联合阿里云举办天文数据挖掘大赛。该比赛以天文光谱智能分类为题,参赛者对郭守敬望远镜观测获得的上千维光谱数据进行分类,设计出高效高准确率的天体分类算法。为天文学家的工作带来更多便利。
图1 天池大赛决赛现场
本次大赛吸引了来自不同地区、不同职业的怀有天文梦想的843支队伍、948人报名参加,选手覆盖中国大陆、中国香港、中国台湾、美国、澳大利亚等5个国家和地区,这些非天文专业的选手尝试设计出高效、高准确率的自动化算法方案,有效解决了这个天文研究中的实际问题。
- 案例2:智源杯天文数据大赛
2020年,由北京智源人工智能研究院主办,国家天文台、数据评测平台biendata联合举办“智源杯”天体分类数据竞赛,本次比赛利用最新的人工智能算法分析望远镜收集到的真实科学数据。中心为大赛提供了LAMOST DR4数据集中近100万个天体的光谱数据制成的机器学习数据集,选手们需利用高效、高准确率的自动化算法,将天体分成恒星(star)、星系(galaxy)和类星体(QSO)三类。
本次比赛共吸引了518名选手组队参加,其中单人队伍462 支,多人队伍20 支。经过验证提交与最终提交两轮竞技,最终共有七支队伍获奖。
图2 智源杯大赛官网
如果您和您的团队也对天文数据感兴趣,并希望利用LAMOST数据开展算法相关的实践与比赛,欢迎前往发布页面下载并使用。使用本数据集开展的学术研究与实践、发表的论文、论著等公开出版物,需在致谢中按下方要求进行标注。利用该数据集获得的各类成果亦需汇总至国家天文科学数据中心。如您在使用数据的过程中需要更多技术、宣传推广等方面的支持,欢迎与我们取得联系。
致谢标注格式:
中文:LAMOST光谱分类机器学习数据集.国家天文科学数据中心. CSTR:11379.11.100658. DOI:10.12149/100658.
英文:LAMOST Spectra Classification Dataset. National Astronomical Data Center. CSTR:11379.11.100658. DOI:10.12149/100658.
此次数据集发布是中心顺应数据驱动的跨学科领域交叉研究趋势,推动科学数据跨学科应用的重要举措。未来,中心计划针对更多的天文研究方向建设并发布高质量机器学习开放数据集,让更多人有机会使用天文数据开展算法研究与实践。
同时也欢迎大家联系我们提交自己的数据集,经过筛选的数据集可通过国家天文科学数据中心的平台开放共享。
数据集提交通道:https://nadc.china-vo.org/res/dataset_submission/dataset_list