一种面向空间非合作目标的强化学习多臂协同俘获策略研究 |
| |
作者姓名: | 张柄汉 王琛 彭兆涛 张夷斋 张帆 |
| |
作者单位: | 1. 长安大学工程机械学院;2. 西北工业大学航天学院 |
| |
基金项目: | 国家自然科学基金(62173275,62222313); |
| |
摘 要: | 针对空间非合作目标清除任务中的目标适应性以及俘获动作规划复杂性等问题,提出了一种基于强化学习方法并结合“多臂分组协同”机制的包络俘获策略。首先构建了多臂俘获机构的物理模型和运动学模型,之后利用SAC(soft actor-critic)算法并引入前演训练(PT)设计了强化学习控制器,接着基于“多臂分组协同”奖励机制设计奖励函数以训练得到最优俘获动作。为了验证俘获策略对单目标作业的高效性和对多目标作业的高适应性,对各种目标分别进行仿真实验。仿真结果表明:所得的俘获策略可以对多种构型的目标实现高效、高适应地俘获。
|
关 键 词: | 空间非合作目标 空间俘获策略 强化学习 包络俘获 多臂协同 |
|
|