SpecCLIP光谱大模型介绍

2024-12-28

分光学无疑是现代天文学的基石之一。通过研究天体的光谱,天文学家能够揭示其化学组成、温度、速度、密度等关键物理特性。这一技术不仅为恒星与星系性质的研究提供了重要手段,还奠定了探索宇宙膨胀(如红移测量)的基础。其发展可追溯至19世纪中期,约瑟夫·冯·夫琅和费与古斯塔夫·基尔霍夫通过太阳光谱研究,发现了光谱线与元素特征的对应关系,将光谱观测变为解析恒星元素“DNA”的工具,从而打破了哲学家孔德“恒星化学组成无法得知”的著名论断。

近年来,以我国LAMOST光谱巡天望远镜为代表,人类对银河系恒星开展了大规模系统性观测,为追溯银河系的形成历史提供了可能。然而,面对数千万乃至上亿的海量光谱数据,如何快速、高效地测量天体的物理参数,成为新时代恒星光谱学的重大挑战。

生成式人工智能的兴起,为光谱研究带来了全新机遇。不同天体展现的丰富多样的光谱,宛如一门“光谱语言”,而大规模巡天积累的数据则为我们系统掌握这门语言提供了可能性。在此背景下,我们构建了 SpecCLIP,一套基座模型体系。我们利用 100 万条高质量的 LAMOST 低分光谱和 100 万条 Gaia XP 光谱,进行了自监督的无标签训练,随后通过 CLIP 算法将两个模型结合,实现了不同分辨率和波段覆盖的光谱间的联合分析与相互预测。

基于 SpecCLIP 模型,我们能够高效预测数十种恒星参数,并通过 LAMOST 和 Gaia XP 的联合测量显著提升参数精度。同时,我们将全面开放 SpecCLIP 模型,供研究者根据各自兴趣预测恒星性质。未来,我们将持续优化 SpecCLIP 的算法,致力于打造一套能够精准解析恒星“DNA”的大模型,为恒星光谱学研究开辟新的可能。