NADC研发基于时序数据模型的多时标光变曲线生成工具
发布时间:
2024-07-03 15:39
修改时间:
2024-07-03 15:39
文章类别:
阅读次数:
551

近期,国家天文科学数据中心张震、许允飞、崔辰州、樊东卫等人开展了光变曲线数据管理的研究,并开发了“自定义时标光变曲线生成工具”(LCGCT)。这项工作基于国家天文科学数据中心归档的MAXI、Fermi、TESS、EP等的数据,引入工业界新兴的时序数据模型,研究了光变曲线数据的存储和管理。相较传统方案,无论是在空间占用还是检索速度方面,都取得了突破。这一成果以“LCGCT: A light curve generator in customisable-time-bin based on time-series database”为题被国际天文学杂志《Astronomy and Computing》接收。同时,该工具也部署在NADC网站上:https://nadc.china-vo.org/lcgct 。论文链接:点击这里

天文学目前已经从刻画静态宇宙发展到认识动态宇宙,进入了时域天文学的时代。时域天文学中的很多分析算法,例如flux-flux-plot (FFP) 、傅里叶分析等都需要对光变曲线进行重采样操作。时间窗口(time-bin)的大小对结果影响重大:若太小会导致信噪比不足,若太大则会淹没短时标的暂现源信号。以爱因斯坦探针卫星(EP)为代表的时域天文望远镜由于其卓越的视场,能够在短时间对天体进行大量重复观测,从而将在时间维度上带来数据量的膨胀。时域天文研究中,光变的采样率需求覆盖了从几十毫秒到几年的时标,因此,需要一种能够快速生成某一目标天体在一定时间尺度内自定义时间采样率的光变曲线的工具,以优化暂现信号的搜索、变源周期提取以及数据可视化。

在海量数据的时代,“检索-下载-分析”的传统科研模式将失效。为了减少数据传输,新一代科研平台普遍采用“计算向数据靠拢”的模式。在时域数据方面,这种思想体现为需要在数据模型层面实现重采样等算法,以增强多时标光变数据生成的计算效率。为此,研究团队引入了工业界新兴的时序数据模型,对工业界现有的多种时序数据库产品(包括InfluxDB、Timescale、TDEngine等)进行了存储效率、查询速度、可扩展性等多方面对比。最终选取了TDEngine用作底层数据存储,针对天文学中光变曲线的数据特点设计了相应的存储方案,并与基于传统关系数据模型的实现(以下简称RB-LCGCT)进行了存储和查询两方面的对比。

在存储方面的实验结果显示,由于采用列存储结构,该方案能够使数据压缩率达到75%。在像MAXI这样平均每个源的光变曲线更长的数据集上,该方案表现更佳(图 1),因此更适合高时间分辨率的场景。

图 1 相对存储占用率的比较。由于这些数据集的大小相差几个量级,为便于比较,以基于关系数据模型的实现(RB-LCGCT)下数据占用空间为单位1(橙色),统计RB-LCGCT的索引(绿色)和LCGCT总数据(蓝色)相较于RB-LCGCT数据的相对空间占用比例。更低的蓝色表示该数据集能够取得更大的压缩效率。

在查询方面,研究人员分别研究了同一个天体在不同时间范围下的检索效率(图 2),以及每个天体检索效率的直方图(图 3)。结果显示,在MAXI和EP实验星(LEIA)的数据上,使用该方案的检索效率均提高到原来的3倍以上。

图 2 LCGCT和RB-LCGCT在不同查询时间范围内的查询时间比较。从图中可以看出,LCGCT的查询速度大约是RB-LCGCT的三倍。

 

图 3 LCGCT(青色)和RB-LCGCT(橙色)查询EP的实验星LEIA探测到的所有天体的长期光曲线的时间直方图,以及平均查询时间(红色和蓝色虚线)。

这项研究为时域天文时代具有高时间分辨率光变曲线的存储和检索提供了一种解决方案,已成功应用于EP和LEIA卫星时域天文信息中心分系统(https://nadc.china-vo.org/ep/)。未来几年,LSST、司天等时域天文望远镜也即将投入使用并产生大量时序数据,该研究也可以为这类望远镜的数据管理提供参考。

 

)
Yang Hanxi
(文章编辑:
我们使用cookies为您提供更好的体验。继续使用本网站,即表示您同意按照我们的Cookie 政策使用cookie。
接受