基于自博弈深度强化学习的空战智能决策方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于自博弈深度强化学习的空战智能决策方法

作者姓名：	单圣哲张伟伟

作者单位：	1. 西北工业大学航空学院;2. 中国人民解放军93995部队

基金项目：	国防科技重点实验室基金（6142219190302）~~；

摘要：	空战是战争走向立体的重要环节，智能空战已经成为国内外军事领域的研究热点和重点，深度强化学习是实现空战智能化的重要技术途径。针对单智能体训练方法难以构建高水平空战对手问题，提出基于自博弈的空战智能体训练方法，搭建研究平台，根据飞行员领域知识合理设计观测、动作与奖励，通过“左右互搏”方式训练空战智能体至收敛，并通过仿真试验验证空战决策模型的有效性。研究结果表明通过自博弈训练，空战智能体战术水平逐步提升，最终对单智能体训练的决策模型构成70%以上胜率，并涌现类似人类“单/双环”战术的空战策略。
关键词：	空战人工智能深度强化学习自博弈智能体