基于深度强化学习的空海联合作战智能决策新方法(英文) |
| |
引用本文: | 宋晓程,冯舒婷,李陟,贾政轩,周国进,叶东.基于深度强化学习的空海联合作战智能决策新方法(英文)[J].南京航空航天大学学报(英文版),2023(1):25-36. |
| |
作者姓名: | 宋晓程 冯舒婷 李陟 贾政轩 周国进 叶东 |
| |
作者单位: | 1. 北京电子工程总体研究所;3. 哈尔滨工业大学卫星技术研究所 |
| |
基金项目: | supported by the National Natural Science Foundation of China (Nos.62073102,62203145);;the China Postdoctoral Science Foundation (No.2022M710948); |
| |
摘 要: | 针对空海联合作战中多装备复杂作战场景不确定性高的难点,提出了一种基于深度强化学习的空海联合作战智能决策新方法。为了统一表示复杂网络的输入、输出及其对应关系,提出了综合利用感知机、深度长短时记忆网络及actor-critic结构的方法。针对策略网络学习过程中的不稳定性及近似策略优化算法的缺陷,提出了改进的近似策略优化算法;针对策略网络自学习过程中对手策略的易变性,提出了基于模型性能和模型多样性的新策略以对于基线策略模型进行选择。实验结果表明,该方法在空海联合作战决策中是有效和稳定的。在第四届中国指控学会兵棋推演专项赛中,本方法在百余轮与规则决策算法及人类的对抗中胜率达到97%,较规则决策算法提升20%左右。
|
关 键 词: | 空海联合作战 深度强化学习 近似策略优化 智能决策 |
|