元强化学习综述 |
| |
引用本文: | 谭晓阳,张哲. 元强化学习综述[J]. 南京航空航天大学学报,2021,53(5):653⁃663.DOI:10.16356/j.1005-2615.2021.05.001 |
| |
作者姓名: | 谭晓阳 张哲 |
| |
作者单位: | 1.南京航空航天大学计算机科学与技术学院/人工智能学院,南京 211106;2.模式分析与机器智能工业和信息化部重点实验室,南京 211106 |
| |
基金项目: | 国家自然科学基金(61976115,61732006)资助项目;全军共用信息系统装备预研基金(315025305)资助项目;南京航空航天大学“人工智能+”研究基金(NZ2020012,56XZA18009)资助项目。 |
| |
摘 要: | 元强化学习是指自动从一组相关任务中学习强化学习所需归纳偏置的相关理论和方法,对于提高强化学习算法在困难场景下的样本效率和泛化能力具有重要用途。本文提出一种新的元强化学习框架,指出设计和分析一个元强化学习算法需要同时考虑学习经验(相关任务)、归纳偏置及学习目标3个独立因素及这3个因素之间的依赖关系。在此基础上对该领域的研究现状进行了分析和总结,特别对近年来元强化学习若干文献进行了分析和归类,并详细阐述了几种代表性算法的原理及各自特点。本文还对元强化学习常用的实验环境和性能评价方法进行了介绍,对该领域的不足和未来的发展方向进行了讨论和分析。
|
关 键 词: | 元强化学习 样本效率 泛化性 归纳偏置 |
收稿时间: | 2020-10-11 |
修稿时间: | 2021-03-10 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《南京航空航天大学学报》浏览原始摘要信息 |
|
点击此处可从《南京航空航天大学学报》下载全文 |
|