基于PPO的移动平台自主导航期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于PPO的移动平台自主导航

作者姓名：	徐国艳熊绎维周彬陈冠宏

作者单位：	北京航空航天大学交通科学与工程学院特种车辆无人运输技术工业和信息化部重点实验室, 北京 100191

基金项目：	国家自然科学基金51775016

摘要：	为解决强化学习算法在自主导航任务中动作输出不连续、训练收敛困难等问题,提出了一种基于近似策略优化(PPO)算法的移动平台自主导航方法。在PPO算法的基础上设计了基于正态分布的动作策略函数,解决了移动平台整车线速度和横摆角速度的输出动作连续性问题。设计了一种改进的人工势场算法作为自身位置评价,有效提高强化学习模型在自主导航场景中的收敛速度。针对导航场景设计了模型的网络框架和奖励函数,并在Gazebo仿真环境中进行模型训练,结果表明,引入自身位置评价的模型收敛速度明显提高。将收敛模型移植入真实环境中,验证了所提方法的有效性。
关键词：	近似策略优化算法移动平台自主导航强化学习人工势场
收稿时间：	2021-03-02

	点击此处可从《北京航空航天大学学报》浏览原始摘要信息
	点击此处可从《北京航空航天大学学报》下载免费的PDF全文