智能与天文跨学科合作研发天文光谱智能分类可视分析系统
发布时间:
2023-11-07 16:39
修改时间:
2023-11-07 16:39
文章类别:
阅读次数:
850

北京大学智能学院袁晓如课题组与国家天文台展开跨学科合作,研究设计了一个结合自动分析与人工用户参与决策的交互式光谱分类检查可视分析系统,在保证分类准确率的同时显著提高分类效率。工作近日被国际可视化领域旗舰期刊IEEE Transactions on Visualization and Computer Graphics正式接收。

天文是典型的对大数据处理分析有巨大需求的领域。近年来,各种巡天计划,如LAMOST(大天区面积多目标光纤光谱天文望远镜)巡天,产生了数以千万计的光谱。天文数据量越来越大。面对天文领域日益增长的大数据集和大数据流,迫切需要相应的先进分析和可视化方法。

光谱分类识别一直是天文学家研究的基础问题,也是LAMOST巡天计划的一项重要任务。光谱分类不仅对于理解恒星物理学有着重要的科学意义,而且在研究银河系整体结构和演化过程中起着至关重要的作用。不断提高光谱分类的精度和识别率是LAMOST光谱数据处理分析工作升级完善的重中之重,为提升LAMOST光谱数据的质量和后续开展相关研究工作奠定了基础。尽管自动方法的性能越来越好,由于光谱数据的复杂性,人类专家视觉检查对于保证分类准确性仍然至关重要。

专家在视觉检查时需要面对整体过程和单条光谱检查两个方面的挑战。从整体来看,一次检查通常包含成千上万条光谱。面对如此众多的光谱,根据按照观测信息分配的序号进行检查不是一个好选择。它迫使专家在没有任何心理预期的情况下被动地检查工具提供的光谱。此外,这种做法忽视了光谱之间的关系。专家可能会连续遇到不同类别的光谱,因此不得不频繁地切换认知焦点,导致完成分类所需的时间和认知资源大大增加。另一方面,在检查单条光谱时,专家需要根据光谱的整体形状识别相关谱线。理想情况下,这些谱线的波长对应局部流量极值。然而,红移会导致谱线波长发生偏移。因此,专家需要将选定的谱线平移调整到合适的波长,这实质上也是确定红移的过程。专家之后再根据光谱在谱线上的表现来判断光谱类别。在当前检查实例中,这一过程大部分依赖专家的领域知识。他们不得不在没有诸如红移建议等指导的情况下,通过观察验证谱线波长是否正确。此外,当考虑多条谱线时,红移变化与波长变化是不一致的。具有不同静止波长的谱线在红移下会产生不同的波长变化,使得结果难以预测。这也是实现精准光谱分析的难点。

为了解决这些挑战、进一步提升光谱分类的效率,我们提出可视分析系统SpectrumVA。我们将检查看作以红移和谱线为参数的视觉参数空间分析过程。红移是定量参数,其值可以在合适范围内任意选择;谱线是定性参数,包含选择和未选择两种状态。它们共同决定光谱中哪些模式将作为专家判断光谱类别的依据。通过“红移-流量”的关系转换以及多种视觉指导策略,系统实现红移与谱线识别的耦合并为检查提供便利。此外,从整体的角度,通过展现光谱间关系等方式,我们从检查前选择合适的探索入口以及检查后自动推荐能按照相似标准确定类型的光谱两方面为专家提供进一步支持。

图1:系统工作流程。

系统的工作流程如图1所示。要检查光谱和已被人工检查、可作为参考的参考光谱构成了系统输入。在预处理阶段,系统提取光谱特征并根据特征计算光谱的表示。用户的探索遵循“选择-检查-推广”的工作流程,分别用来选择一条光谱及其可能的红移和谱线、确定选中光谱的红移和类型以及根据已检查的光谱搜索相似光谱。

图2:选择阶段的系统界面。

选择阶段主要帮助专家选择一条要检查的光谱,以及它的可能红移和该红移处的重要谱线,来进行后续的深入检查。如图2所示,光谱的选择主要是通过左侧视图完成。一方面,如果一条要检查光谱的表示处于某类参考光谱表示集中分布的区域,那么该条要检查光谱可能也属于这一类型。另一方面,如果要检查光谱由两种自动方法确定的类型相同,那么该条光谱被正确分类的可能性较大。反之,它的分类可能存在错误,需要仔细检查。红移和重要谱线的选择主要通过右侧视图完成。视图显示所选要检查光谱的多个候选红移和每个红移的重要谱线。此外,对于每个候选红移,我们提供两个与它的表示最相似的参考光谱。

图3:检查阶段的系统界面。

如图3所示,检查阶段用于确定选中要检查光谱的红移及类型。它主要包括调整、推荐和验证三个模块。调整模块的主要思想是将每条谱线的波长-流量关系转化为红移-流量关系。这种转换消除了红移变化过程中谱线波长变化的差异,实现红移在多条谱线上的同步调整。推荐模块用于帮助专家选择红移和谱线。专家一方面可以在光谱中刷选几个显著的特征,系统会自动识别其中的谱线和对应的红移。另一方面,系统展示不同红移下所有谱线的整体重要性。整体重要性较高的红移可能对应真实红移。验证模块用于评估检查结果,它包含四个方面:当前光谱与模板光谱的匹配程度、光谱特征与谱线的匹配程度、选中谱线的整体重要性以及每条谱线在红移附近的局部光谱轮廓。

图4:推广阶段的系统界面。

在专家检查完一条光谱后,系统会提取他们的判断标准,即选定的谱线及其重要性,以搜索其他相似光谱。推广界面(图4)由选择界面更新得到,它们的区别主要在于界面的关注点由要检查的光谱切换为之前已检查光谱的相似光谱。因此,位于选择界面右侧、用于选择红移和谱线的视图被替换为相似光谱视图。视图上半部分显示被检查的光谱和确定的类型和红移。下半部分显示相似光谱和它们的数量、类型统计和检查进度等信息。

图5:光谱表征算法性能评估。

图6:用户实验结果。

在评估阶段,我们以734条专家检查过的极冷矮星(ultracool dwarfs)为参考光谱,从LAMOST DR7 11,741条晚型M型星中挑选出更多的极冷矮星。我们首先通过参考光谱来评估光谱表征算法性能。如图5所示,673条光谱的最高得分红移候选对应正确红移(准确率91.69%),并且随着候选红移数量增多,算法准确率持续提升。结果说明了算法和提供多个红移候选策略的有效性。在检查过程中,系统识别出2,262条极冷矮星,数量符合专家预期。我们还设计了用户实验,以比较SpectrumVA和当前检查工具性能上的优劣并评估系统各部分设计是否有效。参与者使用SpectrumVA和当前工具分别检查300条光谱并填写问卷。图6表明,SpectrumVA检查准确率与当前工具持平,检查效率显著提升。此外,设计的“选择-检查-推广”流程获得积极反馈。

本工作第一作者是北京大学智能学院博士生李金城,通讯作者智能学院袁晓如研究员。其它合作者还包括赖楚凡,国家天文台的罗阿理研究员和王有芬助理研究员。此外,国家天文台崔辰州研究员和李珊珊助理研究员在讨论过程中提供了建设性意见。工作受到国家自然科学基金项目 NSFC 62272012 支持。

近年来,跨学科研究引起越来越多的关注。教育部积极推进“新工科”建设,2022年也被北京大学列为数字与人文年,鼓励开展工科、理科、文科之间的合作。而可视化通过将数据转化为可交互的图形,可以为领域学者提供强大的分析工具。袁晓如团队近年来与包括天文、健康、历史、中文在内的多个科学与人文领域学者合作,为一些具有挑战性的领域问题提供可视化解决方案和工具。

国家天文科学数据中心为观测设备和研究计划提供数据与技术服务。

 

新闻来源:可视分析公众号

)
Yang Hanxi
(文章编辑:
我们使用cookies为您提供更好的体验。继续使用本网站,即表示您同意按照我们的Cookie 政策使用cookie。
接受