基于深度强化学习的智能空战决策与仿真 |
| |
引用本文: | 周攀,黄江涛,章胜,刘刚,舒博文,唐骥罡.基于深度强化学习的智能空战决策与仿真[J].航空学报,2023(4):99-112. |
| |
作者姓名: | 周攀 黄江涛 章胜 刘刚 舒博文 唐骥罡 |
| |
作者单位: | 1. 中国空气动力研究与发展中心空天技术研究所;2. 中国空气动力研究与发展中心;3. 西北工业大学航空学院 |
| |
摘 要: | 飞行器空战智能决策是当今世界各军事强国的研究热点。为解决近距空战博弈中无人机的机动决策问题,提出一种基于深度强化学习方法的无人机近距空战格斗自主决策模型。决策模型中,采取并改进了一种综合考虑攻击角度优势、速度优势、高度优势和距离优势的奖励函数,改进后的奖励函数避免了智能体被敌机诱导坠地的问题,同时可以有效引导智能体向最优解收敛。针对强化学习中随机采样带来的收敛速度慢的问题,设计了基于价值的经验池样本优先度排序方法,在保证算法收敛的前提下,显著加快了算法收敛速度。基于人机对抗仿真平台对决策模型进行验证,结果表明智能决策模型能够在近距空战过程中压制专家系统和驾驶员。
|
关 键 词: | 空战 自主决策 深度强化学习 TD3算法 稀疏奖励 |
|
|