一种超参数自适应航天器交会变轨策略优化方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

一种超参数自适应航天器交会变轨策略优化方法

引用本文：	孙雷翔,郭延宁,邓武东,吕跃勇,马广富.一种超参数自适应航天器交会变轨策略优化方法[J].宇航学报,2024(1):52-62.

作者姓名：	孙雷翔郭延宁邓武东吕跃勇马广富

作者单位：	1. 哈尔滨工业大学(深圳)空间科学与应用技术研究院;2. 哈尔滨工业大学航天学院;3. 上海卫星工程研究所

摘要：	利用强化学习技术，本文提出了一种超参数自适应的燃料最优地球同步轨道（GEO）航天器交会变轨策略优化方法。首先，建立了GEO航天器交会Lambert变轨模型。以变轨时刻为决策变量、燃料消耗为适应度函数，使用改进式综合学习粒子群算法（ICLPSO）作为变轨策略优化的基础方法。其次，考虑到求解的最优性和快速性，重新设计了以粒子群算法（PSO）优化结果为参考基线的奖励函数。使用一族典型GEO航天器交会工况训练深度确定性策略梯度神经网络（DDPG）。将DDPG与ICLPSO组合为强化学习粒子群算法（RLPSO），从而实现算法超参数根据实时迭代收敛情况的自适应动态调整。最后，仿真结果表明与PSO、综合学习粒子群算法（CLPSO）相比，RLPSO在较少迭代后即可给出适应度较高的规划结果，减轻了迭代过程中的计算资源消耗。
关键词：	地球同步轨道 Lambert变轨强化学习粒子群算法深度确定性策略梯度

设为首页 | 免责声明 | 关于勤云 | 加入收藏