深度强化学习赋能地基光学望远镜智能观测调度
发布时间:
2025-12-19 16:50
修改时间:
2025-12-19 15:17
文章类别:
阅读次数:
40

地基光学望远镜是天文学研究的重要观测设施,其观测效能在很大程度上取决于观测调度策略的合理性。然而,实际观测过程同时受到目标可见性时间窗、月光背景、天气变化以及设备切换与准备时间等多种动态因素的影响,传统依赖人工经验或固定规则的调度方法难以在有限观测时间内实现整体最优。随着大规模观测天文学和时域天文学的快速发展,面向复杂动态环境的智能化观测调度技术已成为提升望远镜观测效率和科学产出的关键。

针对上述问题,山东大学空间科学与技术学院实测天体物理团队的胡绍明、曹海等人提出了一种基于深度强化学习的智能化望远镜观测调度框架。该方法利用训练完成的深度神经网络模型自动生成观测计划,在仿真数据和真实观测场景中均表现出显著优于传统方法的调度性能。相关研究成果已发表于 The Astronomical Journal(2025,AJ,170,88)。论文链接:点击这里

图 1 基于深度强化学习和指针网络的望远镜观测调度模型系统框架

在该工作中,研究团队将望远镜观测调度问题建模为带时间窗约束的定向旅行商问题(Time-Dependent Orienteering Problem with Time Windows,TD-OPTW),并构建了以指针网络(Pointer Network)和多头注意力机制为核心的深度强化学习决策模型。模型同时引入观测目标的静态属性与随时间变化的动态特征,通过改进的强化学习训练策略和基线函数设计,有效降低了训练过程中的方差并加快了模型收敛。在奖励函数设计方面,综合考虑了信噪比、目标高度角、大气消光条件和天空背景亮度等关键物理因素,实现了观测数据质量与任务完成率的协同优化。

图 2 强化学习奖励函数随观测时间变化的示意结果

为增强模型在真实观测条件下的适用性,研究中还建立了望远镜本体、圆顶系统及滤光轮的运动学模型,并开发了曝光时间计算模块,对望远镜指向、滤光片切换和曝光过程进行高保真建模,从而真实刻画观测调度中的时间与资源约束。
在山东大学威海天文台 1 m 望远镜的模拟观测数据集上,该深度强化学习调度方法相较人工调度和贪心算法,观测任务完成率分别由 85% 和 87% 提升至 93%,理论奖励值提高约 30% 和 12%。在新疆慕士塔格小光电阵的实际观测验证中,所生成的调度方案使观测图像的总信噪比提升 45.8%,完成观测任务数量增加 24.1%,显著优于现有调度策略,充分验证了该方法在真实天文观测场景中的可行性与优越性。

图 3 在新疆慕士塔格小光电阵上的实际观测调度效果对比

 

相关源码链接:https://github.com/caohai01/whoscheduling

)
Yang Hanxi
(文章编辑:
我们使用cookies为您提供更好的体验。继续使用本网站,即表示您同意按照我们的Cookie 政策使用cookie。
接受