信息非完备下多航天器轨道博弈强化学习方法 |
| |
引用本文: | 王英杰,袁利,汤亮,黄煌,耿远卓.信息非完备下多航天器轨道博弈强化学习方法[J].宇航学报,2023(10):1522-1533. |
| |
作者姓名: | 王英杰 袁利 汤亮 黄煌 耿远卓 |
| |
作者单位: | 1. 北京控制工程研究所;2. 中国空间技术研究院;3. 空间智能控制技术重点实验室 |
| |
摘 要: | 针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输出结构进行设计,并引入具有记忆功能的长短期记忆网络(LSTM),根据航天器轨道运动在时间、空间连续的属性,补偿位置、速度测量信息的非完备性。然后采用近端策略优化(PPO)算法开展红蓝左右互搏式学习训练。最后通过三组对比训练实验,验证了所提出的方法在信息非完备约束下能够有效增强学习训练过程的稳定性,并提升任务完成率和降低燃料消耗。
|
关 键 词: | 航天器 信息非完备 轨道博弈 多智能体强化学习 长短期记忆网络 近端策略优化算法 |
|
|