题目十

CSST 类星体光谱中的 DLA 探测(DLA Finder Challenge

 

  • 研究领域:宇宙学
  • 后端仪器:巡天相机

 

  • 赛题内容:

阻尼 Lyα 吸收体(Damped Lyman-Alpha absorbers, DLA)是在类星体(QSO)光谱 Lyα 森林区域中出现的强中性氢吸收结构,典型列密度 log NHI ≥ 20.3。DLA 会产生明显的阻尼翼结构,对 Lyα 森林相关函数、BAO 测量以及宇宙学参数推断产生系统性影响。 

在大规模光谱巡天(如 DESI)中,DLA 已通过深度学习(CNN)与高斯过程(GP)等方法实现自动识别,并形成标准化 catalog。然而,CSST 的低分辨率 slitless 光谱(波段覆盖至约 2500Å)具有不同的分辨率和噪声特征,需要针对其观测条件重新设计 DLA 自动识别算法。

本赛题基于符合 CSST 预期观测特性的模拟 mock QSO 光谱数据,参赛者仅需开发自动化算法,完成 DLA 的检测与参数回归任务。

科学目标

构建适用于 CSST 的自动 DLA finder

Lyα 森林 BAO 分析提供可掩膜 catalog

评估低分辨率 slitless 光谱下深度学习方法的性能

参考文献

1. Low-redshift 3D Lyα Forest Correlations with CSST (arXiv:2512.19474)

2. Wang et al. 2022, Deep Learning of DESI Mock Spectra to Find DLAs

3. DESI DR1 DLA CNN+GP VAC 文档

  • 数据文件:

我们将提供以下数据,详细说明见CSST_DLA_Finder_数据与参数说明》 文件:

1. 光谱数据(训练集 + 测试集)

每条模拟 QSO 光谱包含:

波长数组(单位:Å

Flux 或归一化 Flux

噪声 inverse variance

QSO 红移 z_QSO

谱分辨率或 LSF 信息

光谱模拟符合 CSST 低红移 Lyα 场景设定。

2. 训练集标签(仅训练集提供)

每条光谱的真值信息包括:

DLA 数量(可能为 01 或多个)

每个 DLA 的:

吸收体红移 z_DLA

列密度 log NHI

测试集不提供真值标签,仅用于最终评分。

3. 测试集信息

Z_QSO

测试集不提供真值标签,仅用于最终评分。

 

数据下载:

百度网盘:CSST 数据竞赛 类星体模拟光谱

链接:https://pan.baidu.com/s/1NGbZkpxF-cSfHUtAX_sfyg?pwd=1234

提取码:1234

训练集:train.fits.gz (约 200 MB,含标签)

测试集:test.fits.gz (约 40 MB,不含标签)

 

附件:《CSST_DLA_Finder_数据与参赛说明》

 

  • 参赛任务

参赛者需要完成以下任务:

1. DLA 探测(Detection

判断每条光谱是否存在 DLA,并输出候选列表。

允许一条光谱中存在多个 DLA

2. 参数回归(Characterization

对每个检测到的 DLA 输出:

z_DLA(吸收体红移)

log NHI(列密度)

confidence(置信度 0–1

3. 提交格式

参赛者需提交标准化 catalog 文件(FITS),字段包括:

TARGETIDZ_QSO

Z_DLA

LOG_NHI

CONFIDENCE

  • 评分标准:

本赛题评分分为两部分:

1. 检出得分(Detection Performance

2. 参数精度得分(Parameter Accuracy

最终总分为两部分加权平均。

 

一、匹配规则

预测 DLA 与真值 DLA 进行一对一匹配。

匹配条件:

若预测与真值之间的速度差 Δv < 600 km/s,则视为匹配成功;

Δv ≥ 600 km/s,则视为未匹配。

若出现一对多或多对一情况,仅保留速度差最小的一组作为成功匹配。

二、检出得分(Completeness Purity

为了公平评价算法在不同难度条件下的表现,评分将按 信噪比(S/N)和

列密度(log NHI)分区间统计

1. bin 方式

测试集中的真值 DLA 按以下二维区间划分:

S/N 分档(例如:0–11–22–33–44–55–66–7≥7

log NHI 分档(例如:20.3–20.520.5–21.021.0–21.521.5–22.0≥22.0

形成一个二维网格(S/N × log NHI)。

2. 每个区间内计算两项指标

在每个区间内计算:

Completeness(检出率):成功匹配的真值 DLA / 该区间真值 DLA 总数

Purity(纯度):

成功匹配的预测 DLA / 该区间预测 DLA 总数

3. 区间综合得分

每个区间计算 F1 分数:

F1 = 2 × Completeness × Purity / (Completeness + Purity)

若某区间无有效样本,则该区间记为 0 分。

4. 检出总分

对所有区间的 F1 分数取加权平均,得到检出得分。

默认权重与该区间真值 DLA 数量成比例。

三、参数精度得分

参数精度仅针对成功匹配的 DLA 计算。

参赛者需输出:

DLA 红移

log NHI

红移不确定度

log NHI 不确定度

1. 红移精度

对所有成功匹配样本,统计预测红移误差(Δv)的分布,并计算:

平均值(mean):表示系统偏差(bias

标准差(std):表示随机误差(scatter

偏差越接近 0,标准差越小,得分越高。

2. 列密度精度

Δlog NHI 的分布同样计算:

平均值(bias

标准差(scatter

偏差越小、散布越小,得分越高。

3. 不确定度质量参赛者给出的不确定度应与真实误差相匹配。

主办方将检查:

误差是否与给出的不确定度一致

例如:68% 置信区间内是否约有 68% 的样本包含真值

若不确定度过小(过度自信)或过大(过度保守),将影响得分。

四、最终总分

Final Score = 0.6 × 检出得分 + 0.4 × 参数精度得分

 

如有任何问题,请发邮件至csst_uc@nao.cas.cn,并标题注明“第二轮CSST数据挑战大赛”。