基于示范主动采样的行为克隆方法 Behavioral Cloning with Active Sampling of Demonstration期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于示范主动采样的行为克隆方法

引用本文：	黄文宇,黄圣君.基于示范主动采样的行为克隆方法[J].南京航空航天大学学报,2021,53(5):766-771.

作者姓名：	黄文宇黄圣君

作者单位：	南京航空航天大学计算机科学与技术学院/人工智能学院，南京 211106

基金项目：	航空动力基金（6141B09050342）资助项目。

摘要：	深度强化学习在学习过程中需要与环境进行大量的交互，训练效率低下。模仿学习通过从专家示范中学习，可以有效地应对这一挑战，但是需要收集大量的专家示范轨迹，在复杂任务中往往导致高昂的示范代价。本文提出一种基于主动学习的行为克隆算法，通过主动挑选示范起始状态来减小示范代价。该方法基于不确定性采样和不相似性采样两种策略，从状态候选集中挑选最有价值的状态作为起始状态，然后向专家查询固定长度的示范轨迹，希望从尽可能少的示范中学习出有效策略。在多个不同任务上的实验表明，本文方法可以用更少的示范轨迹进行行为克隆，降低了强化学习中的专家示范代价。
关键词：	强化学习模仿学习行为克隆逆强化学习主动学习
收稿时间：	2020/11/10 0:00:00
修稿时间：	2021/1/6 0:00:00
Behavioral Cloning with Active Sampling of Demonstration

Huang Wenyu,Huang Shengjun.Behavioral Cloning with Active Sampling of Demonstration[J].Journal of Nanjing University of Aeronautics & Astronautics,2021,53(5):766-771.

Authors:	Huang Wenyu Huang Shengjun

Abstract:

Keywords:	reinforcement learning imitation learning behavioral cloning inverse reinforcement learning active learning

	点击此处可从《南京航空航天大学学报》浏览原始摘要信息
	点击此处可从《南京航空航天大学学报》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏