基于改进优先经验回放的SAC算法路径规划 |
| |
引用本文: | 崔立志,钟航,董文娟.基于改进优先经验回放的SAC算法路径规划[J].空间控制技术与应用,2023(5):55-64. |
| |
作者姓名: | 崔立志 钟航 董文娟 |
| |
作者单位: | 1. 河南理工大学电气工程与自动化学院;2. 河南省智能装备直驱技术与控制国际联合实验室;3. 国网新疆电力有限公司电力科学研究院 |
| |
基金项目: | 河南省科技攻关项目(232102210040)~~; |
| |
摘 要: | 为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优先度与TD误差构建的样本混合优先度的离散度计算样本采样概率,进一步提出基于改进优先经验回放方法的柔性动作评价算法,提高模型学习效率.仿真实验结果验证了提出的改进柔性动作评价算法在各个参数配合下的有效性及改进优先经验回放方法在连续控制任务中模型学习效率的优越性.
|
关 键 词: | 状态优先度 TD误差 离散度 优先经验回放 学习效率 |
|