自主空战连续决策方法 |
| |
作者姓名: | 单圣哲 杨孟超 张伟伟 高传强 |
| |
作者单位: | 西北工业大学航空学院/中国人民解放军93995部队,西北工业大学航空学院,西北工业大学航空学院,西北工业大学航空学院 |
| |
基金项目: | 国防科技重点实验室基金(6142219190302) |
| |
摘 要: | ![](https://cache.aipub.cn/images/hkgcjz.ijournals.net.cn/html/hkgcjz/2021220/alternativeImage/806b100f-a151-4c4f-ad89-f6379e4c51b3-f001.jpg) 未来空战正朝着无人化、自主化方向发展,自主空战决策方法是未来空战的重要支撑手段之一。传统空战决策方法由于维度限制,存在无法处理连续动作与远视决策的问题。![](https://cache.aipub.cn/images/hkgcjz.ijournals.net.cn/html/hkgcjz/2021220/alternativeImage/806b100f-a151-4c4f-ad89-f6379e4c51b3-f002.jpg) 基于Actor-Critic 方法提出空战连续决策的统一架构,依据空战训练经验对状态空间、动作空间、奖励及训练科目进行合理设计,测试多种连续动作空间强化学习算法在高不确定性空战场景下的学习效果并进行可视化验证。结果表明:基于本文提出的方法架构,可以实现连续动作下的远视价值寻优,智能体可以在复杂空战态势下做出最优决策,对随机机动飞行目标有较高的击杀率,且空战机动轨迹具有较高的合理性。
![](https://cache.aipub.cn/images/hkgcjz.ijournals.net.cn/html/hkgcjz/2021220/alternativeImage/806b100f-a151-4c4f-ad89-f6379e4c51b3-f003.jpg)
|
关 键 词: | 自主空战 强化学习 人工智能 深度神经网络 |
收稿时间: | 2021-11-25 |
修稿时间: | 2022-01-24 |
|
| 点击此处可从《航空工程进展》浏览原始摘要信息 |
|
点击此处可从《航空工程进展》下载免费的PDF全文 |
|