基于Q-Learning算法和神经网络的飞艇控制 |
| |
作者姓名: | 聂春雨 祝明 郑泽伟 武哲 |
| |
作者单位: | 北京航空航天大学航空科学与工程学院,北京,100083;北京航空航天大学自动化科学与电气工程学院,北京,100083 |
| |
基金项目: | 国家自然科学基金,中央高校基本科研业务费专项资金,National Natural Science Foundation of China,the Fundamental Research Funds for the Central Universities |
| |
摘 要: | 针对现代飞艇控制中动力学模型不确定性带来的系统建模和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和在线学习机制的控制策略。设计了一种在分析实际运动的基础上建立飞艇控制马尔可夫决策过程(MDP)模型的方法,具有自适应性。采用Q-Learning算法进行在线学习并利用小脑模型关节控制器(CMAC)神经网络对动作值函数进行泛化加速。对本文方法进行仿真并与经过参数整定的PID控制器对比,验证了该控制策略的有效性。结果表明,在线学习过程能够在数小时内收敛,通过自适应方法建立的MDP模型能够满足常见飞艇控制任务的需求。本文所提控制器能够获得与PID控制器精度相当且更为智能的控制效果。
|
关 键 词: | 飞艇 马尔可夫决策过程(MDP) 机器学习 Q-Learning 小脑模型关节控制器(CMAC) |
收稿时间: | 2016-11-29 |
本文献已被 CNKI 万方数据 等数据库收录! |
| 点击此处可从《北京航空航天大学学报》浏览原始摘要信息 |
|
点击此处可从《北京航空航天大学学报》下载免费的PDF全文 |
|