基于自博弈深度强化学习的空战智能决策方法 |
| |
作者姓名: | 单圣哲 张伟伟 |
| |
作者单位: | 1. 西北工业大学航空学院;2. 中国人民解放军93995部队 |
| |
基金项目: | 国防科技重点实验室基金(6142219190302)~~; |
| |
摘 要: | 空战是战争走向立体的重要环节,智能空战已经成为国内外军事领域的研究热点和重点,深度强化学习是实现空战智能化的重要技术途径。针对单智能体训练方法难以构建高水平空战对手问题,提出基于自博弈的空战智能体训练方法,搭建研究平台,根据飞行员领域知识合理设计观测、动作与奖励,通过“左右互搏”方式训练空战智能体至收敛,并通过仿真试验验证空战决策模型的有效性。研究结果表明通过自博弈训练,空战智能体战术水平逐步提升,最终对单智能体训练的决策模型构成70%以上胜率,并涌现类似人类“单/双环”战术的空战策略。
|
关 键 词: | 空战 人工智能 深度强化学习 自博弈 智能体 |
|
|