航天器轨道追逃博弈多阶段强化学习训练方法 Multi-stage Reinforcement Learning Method for Orbital Pursuit-Evasion Game of Spacecrafts期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

航天器轨道追逃博弈多阶段强化学习训练方法

引用本文：	袁利,耿远卓,汤亮,黄煌.航天器轨道追逃博弈多阶段强化学习训练方法[J].上海航天,2022,39(4):33-41.

作者姓名：	袁利耿远卓汤亮黄煌

作者单位：	北京控制工程研究所，北京 100094;空间智能控制技术重点实验室，北京 100094

摘要：	针对航天器轨道追逃博弈问题，提出一种多阶段学习训练赋能方法，使得追踪星在终端时刻抵近逃逸星的特定区域，而逃逸星需要通过轨道机动规避追踪星。首先，构建两星的训练策略集，基于逻辑规则设计追踪星和逃逸星的机动策略，通过实时预测对方的终端位置，设计己方的期望位置和脉冲策略，显式给出追逃策略的解析表达式，用于训练赋能;其次，为提升航天器的训练赋能效率及应对未知环境的博弈能力，提出一种基于强化学习技术多模式、分阶段的学习训练方法，先使追踪星和逃逸星分别应对上述逻辑规则引导下的逃逸星和追踪星，完成预训练;再次，开展二次训练，两星都采用邻近策略优化(PPO)策略进行追逃博弈，在博弈中不断调整网络权值，提升决策能力;最后，在仿真环境中验证提出的训练方法的有效性，经过二次训练后，追踪星和逃逸星可有效应对不同策略驱动下的对手，提升追逃成功率。
关键词：	轨道追逃博弈决策强化学习训练赋能多阶段学习
收稿时间：	2022/4/26 0:00:00
修稿时间：	2022/6/14 0:00:00
Multi-stage Reinforcement Learning Method for Orbital Pursuit-Evasion Game of Spacecrafts

YUAN Li,GENG Yuanzhuo,TANG Liang,HUANG Huang.Multi-stage Reinforcement Learning Method for Orbital Pursuit-Evasion Game of Spacecrafts[J].Aerospace Shanghai,2022,39(4):33-41.

Authors:	YUAN Li GENG Yuanzhuo TANG Liang HUANG Huang

Abstract:

Keywords:	orbital pursuit-evasion game decision making reinforcement learning enabled training multi-stage learning

	点击此处可从《上海航天》浏览原始摘要信息
	点击此处可从《上海航天》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏