首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于示范主动采样的行为克隆方法
引用本文:黄文宇,黄圣君.基于示范主动采样的行为克隆方法[J].南京航空航天大学学报,2021,53(5):766-771.
作者姓名:黄文宇  黄圣君
作者单位:南京航空航天大学计算机科学与技术学院/人工智能学院, 南京 211106
基金项目:航空动力基金(6141B09050342)资助项目。
摘    要:深度强化学习在学习过程中需要与环境进行大量的交互,训练效率低下。模仿学习通过从专家示范中学习,可以有效地应对这一挑战,但是需要收集大量的专家示范轨迹,在复杂任务中往往导致高昂的示范代价。本文提出一种基于主动学习的行为克隆算法,通过主动挑选示范起始状态来减小示范代价。该方法基于不确定性采样和不相似性采样两种策略,从状态候选集中挑选最有价值的状态作为起始状态,然后向专家查询固定长度的示范轨迹,希望从尽可能少的示范中学习出有效策略。在多个不同任务上的实验表明,本文方法可以用更少的示范轨迹进行行为克隆,降低了强化学习中的专家示范代价。

关 键 词:强化学习  模仿学习  行为克隆  逆强化学习  主动学习
收稿时间:2020/11/10 0:00:00
修稿时间:2021/1/6 0:00:00

Behavioral Cloning with Active Sampling of Demonstration
Huang Wenyu,Huang Shengjun.Behavioral Cloning with Active Sampling of Demonstration[J].Journal of Nanjing University of Aeronautics & Astronautics,2021,53(5):766-771.
Authors:Huang Wenyu  Huang Shengjun
Abstract:
Keywords:reinforcement learning  imitation learning  behavioral cloning  inverse reinforcement learning  active learning
点击此处可从《南京航空航天大学学报》浏览原始摘要信息
点击此处可从《南京航空航天大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号