CSST 类星体光谱中的 DLA 探测(DLA Finder Challenge)
- 研究领域:宇宙学
- 后端仪器:巡天相机
- 赛题内容:
阻尼 Lyα 吸收体(Damped Lyman-Alpha absorbers, DLA)是在类星体(QSO)光谱 Lyα 森林区域中出现的强中性氢吸收结构,典型列密度 log NHI ≥ 20.3。DLA 会产生明显的阻尼翼结构,对 Lyα 森林相关函数、BAO 测量以及宇宙学参数推断产生系统性影响。
在大规模光谱巡天(如 DESI)中,DLA 已通过深度学习(CNN)与高斯过程(GP)等方法实现自动识别,并形成标准化 catalog。然而,CSST 的低分辨率 slitless 光谱(波段覆盖至约 2500Å)具有不同的分辨率和噪声特征,需要针对其观测条件重新设计 DLA 自动识别算法。
本赛题基于符合 CSST 预期观测特性的模拟 mock QSO 光谱数据,参赛者仅需开发自动化算法,完成 DLA 的检测与参数回归任务。
科学目标
• 构建适用于 CSST 的自动 DLA finder
• 为 Lyα 森林 BAO 分析提供可掩膜 catalog
• 评估低分辨率 slitless 光谱下深度学习方法的性能
参考文献
1. Low-redshift 3D Lyα Forest Correlations with CSST (arXiv:2512.19474)
2. Wang et al. 2022, Deep Learning of DESI Mock Spectra to Find DLAs
3. DESI DR1 DLA CNN+GP VAC 文档
- 数据文件:
我们将提供以下数据,详细说明见《CSST_DLA_Finder_数据与参数说明》 文件:
1. 光谱数据(训练集 + 测试集)
• 每条模拟 QSO 光谱包含:
• 波长数组(单位:Å)
• Flux 或归一化 Flux
• 噪声 inverse variance
• QSO 红移 z_QSO
• 谱分辨率或 LSF 信息
• 光谱模拟符合 CSST 低红移 Lyα 场景设定。
2. 训练集标签(仅训练集提供)
• 每条光谱的真值信息包括:
• DLA 数量(可能为 0、1 或多个)
• 每个 DLA 的:
• 吸收体红移 z_DLA
• 列密度 log NHI
• 测试集不提供真值标签,仅用于最终评分。
3. 测试集信息
• Z_QSO
• 测试集不提供真值标签,仅用于最终评分。
数据下载:
百度网盘:CSST 数据竞赛 类星体模拟光谱
链接:https://pan.baidu.com/s/1NGbZkpxF-cSfHUtAX_sfyg?pwd=1234
提取码:1234
训练集:train.fits.gz (约 200 MB,含标签)
测试集:test.fits.gz (约 40 MB,不含标签)
- 参赛任务
参赛者需要完成以下任务:
1. DLA 探测(Detection)
判断每条光谱是否存在 DLA,并输出候选列表。
允许一条光谱中存在多个 DLA。
2. 参数回归(Characterization)
对每个检测到的 DLA 输出:
• z_DLA(吸收体红移)
• log NHI(列密度)
• confidence(置信度 0–1)
3. 提交格式
参赛者需提交标准化 catalog 文件(FITS),字段包括:
• TARGETID• Z_QSO
• Z_DLA
• LOG_NHI
• CONFIDENCE、
- 评分标准:
本赛题评分分为两部分:
1. 检出得分(Detection Performance)
2. 参数精度得分(Parameter Accuracy)
最终总分为两部分加权平均。
一、匹配规则
预测 DLA 与真值 DLA 进行一对一匹配。
匹配条件:
• 若预测与真值之间的速度差 Δv < 600 km/s,则视为匹配成功;
• 若 Δv ≥ 600 km/s,则视为未匹配。
若出现一对多或多对一情况,仅保留速度差最小的一组作为成功匹配。
二、检出得分(Completeness 与 Purity)
为了公平评价算法在不同难度条件下的表现,评分将按 信噪比(S/N)和
列密度(log NHI)分区间统计。
1. 分 bin 方式
测试集中的真值 DLA 按以下二维区间划分:
• 按 S/N 分档(例如:0–1,1–2,2–3,3–4,4–5,5–6,6–7,≥7)
• 按 log NHI 分档(例如:20.3–20.5,20.5–21.0,21.0–21.5,21.5–22.0,≥22.0)
形成一个二维网格(S/N × log NHI)。
2. 每个区间内计算两项指标
在每个区间内计算:
• Completeness(检出率):成功匹配的真值 DLA 数 / 该区间真值 DLA 总数
• Purity(纯度):
成功匹配的预测 DLA 数 / 该区间预测 DLA 总数
3. 区间综合得分
每个区间计算 F1 分数:
F1 = 2 × Completeness × Purity / (Completeness + Purity)
若某区间无有效样本,则该区间记为 0 分。
4. 检出总分
对所有区间的 F1 分数取加权平均,得到检出得分。
默认权重与该区间真值 DLA 数量成比例。
三、参数精度得分
参数精度仅针对成功匹配的 DLA 计算。
参赛者需输出:
• DLA 红移
• log NHI
• 红移不确定度
• log NHI 不确定度
1. 红移精度
对所有成功匹配样本,统计预测红移误差(Δv)的分布,并计算:
• 平均值(mean):表示系统偏差(bias)
• 标准差(std):表示随机误差(scatter)
偏差越接近 0,标准差越小,得分越高。
2. 列密度精度
对 Δlog NHI 的分布同样计算:
• 平均值(bias)
• 标准差(scatter)
偏差越小、散布越小,得分越高。
3. 不确定度质量参赛者给出的不确定度应与真实误差相匹配。
主办方将检查:
• 误差是否与给出的不确定度一致
• 例如:68% 置信区间内是否约有 68% 的样本包含真值
若不确定度过小(过度自信)或过大(过度保守),将影响得分。
四、最终总分
Final Score = 0.6 × 检出得分 + 0.4 × 参数精度得分
如有任何问题,请发邮件至csst_uc@nao.cas.cn,并标题注明“第二轮CSST数据挑战大赛”。