基于分支深度强化学习的非合作目标追逃博弈策略求解期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于分支深度强化学习的非合作目标追逃博弈策略求解

作者姓名：	刘冰雁叶雄兵高勇王新波倪蕾

作者单位：	1. 军事科学院, 北京 100091;2. 解放军 32032部队, 北京 100094;3. 航天工程大学, 北京 101416

摘要：	为解决航天器与非合作目标的空间交会问题,缓解深度强化学习在连续空间的应用限制,提出了一种基于分支深度强化学习的追逃博弈算法,以获得与非合作目标的空间交会策略。对于非合作目标的空间交会最优控制,运用微分对策描述为连续推力作用下的追逃博弈问题;为避免传统深度强化学习应对连续空间存在维数灾难问题,通过构建模糊推理模型来表征连续空间,提出了一种具有多组并行神经网络和共享决策模块的分支深度强化学习架构。实现了最优控制与博弈论的结合,有效解决了微分对策模型高度非线性且难于利用经典最优控制理论进行求解的难题,进一步提升了深度强化学习对离散行为的学习能力,并通过算例仿真检验了该算法的有效性。
关键词：	非合作目标空间交会航天器追逃问题连续空间微分对策深度强化学习分支架构
收稿时间：	2020-03-31
修稿时间：	2020-10-25
本文献已被万方数据等数据库收录！
	点击此处可从《航空学报》浏览原始摘要信息
	点击此处可从《航空学报》下载全文