编者按:
又是一年毕业季,又一批学子们带着丰硕的成果完成了他们的学术之旅。
为了更好地展示数据赋能下的新生代天文学人风采,国家天文科学数据中心特别策划了 “毕业论文专题”栏目,聚焦本年度毕业生的优秀论文,呈现他们如何运用先进的数据处理工具、创新的分析方法,从海量数据中探索天文学新的认知边界。在他们即将开启新的人生旅程之际,为读者们讲述数据背后的宇宙故事。
作为本栏目的开篇,今天为大家带来国家天文台汤超同学的硕士论文《基于光谱表示学习的目标星系搜寻研究》,一起来看看吧!
论文简介
- 论文类型:硕士学位论文
- 作者姓名:汤超
- 学科专业:天文技术与方法
- 培养单位:国家天文台
- 论文标题:基于光谱表示学习的目标星系搜寻研究
在浩瀚宇宙的探索征程中,大规模光谱巡天项目正以前所未有的速度,为我们带回海量的星系光谱数据。这些数据就像珍贵的宝藏,承载着揭示星系形成演化以及宇宙基本规律的关键信息,为天文学研究提供了坚实的数据支撑。
然而,随着数据呈爆炸式增长,传统光谱分析方法渐有“心有余而力不足”之态。理论模板匹配和手动特征工程虽为经典手段,但在处理海量数据时效率较低,且难以捕捉光谱中复杂的非线性特征,宛如面对巨幅拼图,仅靠人力逐块拼凑,既费时又易遗漏关键部分。
为突破这一困境,数据驱动的监督学习方法应运而生。它在特定分类任务上表现出色,就像一位经过严苛训练的专才,能精准完成特定任务。但其局限性也显而易见:对大规模高质量标注数据的依赖,使其在面对全新的搜寻目标时,宛如失去海图的船只,需要重新收集标注数据、耗费大量成本和时间重新训练模型,方可继续前行。
本研究聚焦于大规模光谱数据分析中的两大核心难题:
- 如何在标注数据匮乏时,学习到鲁棒且信息丰富的光谱特征表示;
- 如何基于这种表示构建一个灵活适应不同搜索目标且能结合先验知识提供透明化分析结果的框架。
一、GalSpecEncoder:解锁光谱奥秘的 “钥匙”
针对第一个核心问题,该研究选择设计并实现了一个基于 Transformer 架构的光谱编码器 ——GalSpecEncoder。鉴于星系光谱的序列特性和长程依赖关系,以及Transformer在自然语言处理领域的卓越表现,我将其引入光谱分析,以挖掘光谱序列中的特征信息。
采用掩码光谱建模的自监督学习策略,GalSpecEncoder 在数十万条未标注的 SDSS 光谱上进行预训练。通过随机掩盖光谱样本中的部分数据,再迫使模型基于剩余可见数据将其重建出来,从而引导模型自主学习光谱中蕴含的内在结构和谱线特征。经此训练,GalSpecEncoder 能够成功构建鲁棒且泛化性良好的光谱特征表示,为后续分析任务筑牢根基。
图1 GalSpecEncoder 模型示意图
二、GalSpecEncoder-KB:灵活高效的光谱分析 “智库”
为进一步提升光谱分析的灵活性和效率,该研究将 GalSpecEncoder 与包含光谱嵌入向量和多源天文元数据的知识库系统相结合,构建了 GalSpecEncoder-KB 框架。
该框架基于检索增强思想,采用 “编码 - 检索 - 关联 - 推断” 的工作流程,实现对未知光谱的自动化分析。其模块化设计宛如搭积木,完成了表示学习与下游任务适配的解耦。这意味着,用户仅需按需配置知识库,无需重新训练深度模型,就能灵活应对不同的目标搜寻任务。这极大地提升了研究效率,也让框架具备了强大的可扩展性,能够整合已有的专业知识,且迅速适应天文学研究中不断涌现的新需求。
图2 GalSpecEncoder-KB 框架示意图
三、研究意义:信息技术辅助天文研究
本研究提出的 GalSpecEncoder-KB 框架为处理大规模星系光谱数据提供了一种新的思路。该框架可从未标注数据中学习有意义的光谱特征表示,同时提供了较为灵活高效且具备一定可解释性的目标星系搜寻方式,能够帮助研究人员分析海量光谱数据、探寻特殊类型天体并验证物理模型。未来期望该框架能在相关天文研究中发挥作用,为拓展宇宙认知提供一定的支持。
毕业论文专题稿件持续征集中,如果你也想分享自己的研究成果,欢迎在公众号后台留言,或投稿至:support@china-vo.org