首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Safe-PPO算法的安全优先路径规划方法
引用本文:别桐,朱晓庆,付煜,李晓理,阮晓钢,王全民.基于Safe-PPO算法的安全优先路径规划方法[J].北京航空航天大学学报,2023(8):2108-2118.
作者姓名:别桐  朱晓庆  付煜  李晓理  阮晓钢  王全民
作者单位:1. 北京工业大学信息学部人工智能与自动化学院;2. 北京工业大学计算智能与智能系统北京市重点实验室;3. 北京工业大学信息学部计算机学院
基金项目:国家自然科学基金(61773027,62103009);;北京市自然科学基金(4202005)~~;
摘    要:现有的路径规划算法对路径规划过程中的路径安全性问题考虑较少,并且传统的近端策略优化(PPO)算法存在一定的方差适应性问题。为解决这些问题,提出一种融合进化策略思想和安全奖励函数的安全近端策略优化(Safe-PPO)算法,所提算法以安全优先进行路径规划。采用协方差自适应调整的进化策略(CMA-ES)的思想对PPO算法进行改进,并引入危险系数与动作因子来评估路径的安全性。使用二维栅格地图进行仿真实验,采用传统的PPO算法和Safe-PPO算法进行对比;采用六足机器人在搭建的场景中进行实物实验。仿真实验结果表明:所提算法在安全优先导向的路径规划方面具有合理性与可行性:在训练时Safe-PPO算法相比传统的PPO算法收敛速度提升了18%,获得的奖励提升了5.3%;在测试时采用融合危险系数与动作因子的方案能使机器人学会选择更加安全的道路而非直观上最快速的道路。实物实验结果表明:机器人可以在现实环境中选择更加安全的路径到达目标点。

关 键 词:机器人导航  路径规划  深度强化学习  近端策略优化  安全路径选择
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号