在引力的约束下,恒星汇聚成星团和星系,星系汇聚成星系团,星系团之间相互连接形成大尺度结构。这些天体虽然空间尺度差异巨大,但它们都具有相似的等级化结构。
层次聚类算法是一种无监督算法。它按照某种预设的度量来量化数据之间的距离,并将距离用树状图呈现。层次聚类不只提供最终的聚类结果,也能呈现数据点之间的层次关系。
因而,层次聚类非常适合呈现宇宙中的等级化结构。早在1978年就已被引入天文学领域,用来识别临近星系中的星系群。如今这个算法在天文学的各个分支都有广泛应用。
星系团
星系团既是大尺度结构的结点枢纽,也是星系形成和演化的重要场所。如何搜寻星系团,证认星系团内部的团成员一直是星系团研究的重要内容。
对于单一天体,以星系间的束缚能作为层次聚类的度量能够将星系团内的子结构直观地显示出来;根据弥散速度平台切割树状图可以方便地识别团成员和子结构。对于大视场多目标,花树算法综合考虑各节点的特性来决定是否切割分支,极大减少了分析过程中的人工干预。
图1 左图为模拟数据的星系团的树状图;右图为该主干对应的速度弥散轮廓.
超星系团
超星系团由多个星系团或星系群组成的大质量天体,是宇宙中已知的最大尺度的结构之一。
根据超团中各系统并入分支的先后顺序,可以得知各成员关联的紧密程度,从而寻找其中的纤维结构,甚至预测未来的并合次序。这为超星系团等大尺度结构的探测提供全新思路。
图2 左图为花树算法在超星系团A2029附近天区探测到的星系团/群的空间分布.
疏散星团
疏散星团诞生于分子云中,形态很不规则,在外围成员认定中存在一定困难。传统的成员识别方法通常假定星团成员有相同的运动学信息和相同的演化趋势。
层次聚类方法不需要事先假设,这对于探索星团的边界有很大优势。只利用恒星的运动学信息,以投影束缚能为度量进行聚类,可以将疏散双星团的结构区分开来。
图3 左图为英仙双星团的树状图.右图为算法给出的两个子团成员的空间分布.
分子云
与离散分布的星系、恒星不同,分子云在空间中连续分布。层次聚类算法在分子云中的应用更为多样。
以分子云中的每个像素点的空间三维信息作层次聚类,能够区分分子云和子结构。加入分子云的中心点速度和速度弥散信息,可以得到动力学分层结构。结合分子云中恒星的信息,可以得到恒星与分子云在速度和空间上的耦合关系。
图4 左图为单个分子云在银道座标下的图像. 右图为该区域对应的树状图.
天体分类
传统的天体分类由人工完成。但随着数据集越来越大,选取合适的特征量进行算法分类是一大趋势。
层次聚类方法可以实现小行星族的分类并识别其动力学演化,也可以用于X射线天体光谱分类和系外行星分类。对星系的空间形态的分类结果和人工标注结果大致吻合。
层次聚类方法和相关矩阵联合使用,可以揭示多元变量间的相关关系。
图5 模拟星系属性之间的相关矩阵聚类热图. 红色为正相关, 蓝色为负相关.
随着新一代天文设备的陆续建成,待分析的数据量大幅增长,层次聚类算法也将会在天文学研究中发挥更大的作用。
上述内容节选自综述论文《层次聚类算法的天文学应用》(Hierarchical Clustering in Astronomy),欢迎阅读原文。