基于生成对抗近端策略优化的机动策略优化算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于生成对抗近端策略优化的机动策略优化算法

作者姓名：	付宇鹏邓向阳朱子强高阳张立民

作者单位：	海军航空大学,山东烟台 264001;海军航空大学,山东烟台 264001;清华大学,北京 100084

摘要：	针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互数据训练判别器网络,并反馈调节策略网络,实现了约束策略向专家策略方向优化,提高了算法收敛效率和专家经验利用率。仿真环境为基于 JSBSim开源平台的 F-16飞机空气动力学模型。仿真结高,PPO果表明,本文算法收敛效率高于算法,生成的策略模型具备较好的智能性。
关键词：	生成对抗模仿学习近端策略优化机动决策强化学习模仿学习

	点击此处可从《海军航空工程学院学报》浏览原始摘要信息
	点击此处可从《海军航空工程学院学报》下载免费的PDF全文