首页 | 本学科首页   官方微博 | 高级检索  
     

基于生成对抗近端策略优化的机动策略优化算法
作者姓名:付宇鹏  邓向阳  朱子强  高阳  张立民
作者单位:海军航空大学,山东烟台 264001;海军航空大学,山东烟台 264001;清华大学,北京 100084
摘    要:针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互数据训练判别器网络,并反馈调节策略网络,实现了约束策略向专家策略方向优化,提高了算法收敛效率和专家经验利用率。仿真环境为基于 JSBSim开源平台的 F-16飞机空气动力学模型。仿真结高,PPO果表明,本文算法收敛效率高于算法,生成的策略模型具备较好的智能性。

关 键 词:生成对抗模仿学习  近端策略优化  机动决策  强化学习  模仿学习
点击此处可从《海军航空工程学院学报》浏览原始摘要信息
点击此处可从《海军航空工程学院学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号