题目十 | 第二轮CSST科学数据挑战大赛

题目十

CSST 类星体光谱中的 DLA 探测（DLA Finder Challenge）

研究领域：宇宙学
后端仪器：巡天相机

赛题内容：

阻尼 Lyα 吸收体（Damped Lyman-Alpha absorbers, DLA）是在类星体（QSO）光谱 Lyα 森林区域中出现的强中性氢吸收结构，典型列密度 log NHI ≥ 20.3。DLA 会产生明显的阻尼翼结构，对 Lyα 森林相关函数、BAO 测量以及宇宙学参数推断产生系统性影响。

在大规模光谱巡天（如 DESI）中，DLA 已通过深度学习（CNN）与高斯过程（GP）等方法实现自动识别，并形成标准化 catalog。然而，CSST 的低分辨率 slitless 光谱（波段覆盖至约 2500Å）具有不同的分辨率和噪声特征，需要针对其观测条件重新设计 DLA 自动识别算法。

本赛题基于符合 CSST 预期观测特性的模拟 mock QSO 光谱数据，参赛者仅需开发自动化算法，完成 DLA 的检测与参数回归任务。

科学目标

• 构建适用于 CSST 的自动 DLA finder

• 为 Lyα 森林 BAO 分析提供可掩膜 catalog

• 评估低分辨率 slitless 光谱下深度学习方法的性能

参考文献

1. Low-redshift 3D Lyα Forest Correlations with CSST (arXiv:2512.19474)

2. Wang et al. 2022, Deep Learning of DESI Mock Spectra to Find DLAs

3. DESI DR1 DLA CNN+GP VAC 文档

数据文件：

我们将提供以下数据，详细说明见《CSST_DLA_Finder_数据与参数说明》文件：

1. 光谱数据（训练集 + 测试集）

• 每条模拟 QSO 光谱包含：

• 波长数组（单位：Å）

• Flux 或归一化 Flux

• 噪声 inverse variance

• QSO 红移 z_QSO

• 谱分辨率或 LSF 信息

• 光谱模拟符合 CSST 低红移 Lyα 场景设定。

2. 训练集标签（仅训练集提供）

• 每条光谱的真值信息包括：

• DLA 数量（可能为 0、1 或多个）

• 每个 DLA 的：

• 吸收体红移 z_DLA

• 列密度 log NHI

• 测试集不提供真值标签，仅用于最终评分。

3. 测试集信息

• Z_QSO

• 测试集不提供真值标签，仅用于最终评分。

数据下载：

百度网盘：CSST 数据竞赛类星体模拟光谱

链接：https://pan.baidu.com/s/1NGbZkpxF-cSfHUtAX_sfyg?pwd=1234

提取码：1234

训练集：train.fits.gz （约 200 MB，含标签）

测试集：test.fits.gz （约 40 MB，不含标签）

附件：《CSST_DLA_Finder_数据与参赛说明》

参赛任务

参赛者需要完成以下任务：

1. DLA 探测（Detection）

判断每条光谱是否存在 DLA，并输出候选列表。

允许一条光谱中存在多个 DLA。

2. 参数回归（Characterization）

对每个检测到的 DLA 输出：

• z_DLA（吸收体红移）

• log NHI（列密度）

• confidence（置信度 0–1）

3. 提交格式

参赛者需提交标准化 catalog 文件（FITS），字段包括：

• TARGETID• Z_QSO

• Z_DLA

• LOG_NHI

• CONFIDENCE、

评分标准：

本赛题评分分为两部分：

1. 检出得分（Detection Performance）

2. 参数精度得分（Parameter Accuracy）

最终总分为两部分加权平均。

一、匹配规则

预测 DLA 与真值 DLA 进行一对一匹配。

匹配条件：

• 若预测与真值之间的速度差 Δv < 600 km/s，则视为匹配成功；

• 若 Δv ≥ 600 km/s，则视为未匹配。

若出现一对多或多对一情况，仅保留速度差最小的一组作为成功匹配。

二、检出得分（Completeness 与 Purity）

为了公平评价算法在不同难度条件下的表现，评分将按 信噪比（S/N）和

列密度（log NHI）分区间统计。

1. 分 bin 方式

测试集中的真值 DLA 按以下二维区间划分：

• 按 S/N 分档（例如：0–1，1–2，2–3，3–4，4–5，5–6，6–7，≥7）

• 按 log NHI 分档（例如：20.3–20.5，20.5–21.0，21.0–21.5，21.5–22.0，≥22.0）

形成一个二维网格（S/N × log NHI）。

2. 每个区间内计算两项指标

在每个区间内计算：

• Completeness（检出率）：成功匹配的真值 DLA 数 / 该区间真值 DLA 总数

• Purity（纯度）：

成功匹配的预测 DLA 数 / 该区间预测 DLA 总数

3. 区间综合得分

每个区间计算 F1 分数：

F1 = 2 × Completeness × Purity / (Completeness + Purity)

若某区间无有效样本，则该区间记为 0 分。

4. 检出总分

对所有区间的 F1 分数取加权平均，得到检出得分。

默认权重与该区间真值 DLA 数量成比例。

三、参数精度得分

参数精度仅针对成功匹配的 DLA 计算。

参赛者需输出：

• DLA 红移

• log NHI

• 红移不确定度

• log NHI 不确定度

1. 红移精度

对所有成功匹配样本，统计预测红移误差（Δv）的分布，并计算：

• 平均值（mean）：表示系统偏差（bias）

• 标准差（std）：表示随机误差（scatter）

偏差越接近 0，标准差越小，得分越高。

2. 列密度精度

对 Δlog NHI 的分布同样计算：

• 平均值（bias）

• 标准差（scatter）

偏差越小、散布越小，得分越高。

3. 不确定度质量参赛者给出的不确定度应与真实误差相匹配。

主办方将检查：

• 误差是否与给出的不确定度一致

• 例如：68% 置信区间内是否约有 68% 的样本包含真值

若不确定度过小（过度自信）或过大（过度保守），将影响得分。

四、最终总分

Final Score = 0.6 × 检出得分 + 0.4 × 参数精度得分

如有任何问题，请发邮件至csst_uc@nao.cas.cn，并标题注明“第二轮CSST数据挑战大赛”。