首页 | 本学科首页   官方微博 | 高级检索  
     检索      

航天器轨道追逃博弈多阶段强化学习训练方法
引用本文:袁利,耿远卓,汤亮,黄煌.航天器轨道追逃博弈多阶段强化学习训练方法[J].上海航天,2022,39(4):33-41.
作者姓名:袁利  耿远卓  汤亮  黄煌
作者单位:北京控制工程研究所,北京 100094;空间智能控制技术重点实验室,北京 100094
摘    要:针对航天器轨道追逃博弈问题,提出一种多阶段学习训练赋能方法,使得追踪星在终端时刻抵近逃逸星的特定区域,而逃逸星需要通过轨道机动规避追踪星。首先,构建两星的训练策略集,基于逻辑规则设计追踪星和逃逸星的机动策略,通过实时预测对方的终端位置,设计己方的期望位置和脉冲策略,显式给出追逃策略的解析表达式,用于训练赋能;其次,为提升航天器的训练赋能效率及应对未知环境的博弈能力,提出一种基于强化学习技术多模式、分阶段的学习训练方法,先使追踪星和逃逸星分别应对上述逻辑规则引导下的逃逸星和追踪星,完成预训练;再次,开展二次训练,两星都采用邻近策略优化(PPO)策略进行追逃博弈,在博弈中不断调整网络权值,提升决策能力;最后,在仿真环境中验证提出的训练方法的有效性,经过二次训练后,追踪星和逃逸星可有效应对不同策略驱动下的对手,提升追逃成功率。

关 键 词:轨道追逃  博弈决策  强化学习  训练赋能  多阶段学习
收稿时间:2022/4/26 0:00:00
修稿时间:2022/6/14 0:00:00

Multi-stage Reinforcement Learning Method for Orbital Pursuit-Evasion Game of Spacecrafts
YUAN Li,GENG Yuanzhuo,TANG Liang,HUANG Huang.Multi-stage Reinforcement Learning Method for Orbital Pursuit-Evasion Game of Spacecrafts[J].Aerospace Shanghai,2022,39(4):33-41.
Authors:YUAN Li  GENG Yuanzhuo  TANG Liang  HUANG Huang
Abstract:
Keywords:orbital pursuit-evasion  game decision making  reinforcement learning  enabled training  multi-stage learning
点击此处可从《上海航天》浏览原始摘要信息
点击此处可从《上海航天》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号