变形飞行器深度强化学习姿态控制方法研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

变形飞行器深度强化学习姿态控制方法研究

引用本文：	马少捷,惠俊鹏,王宇航,张旋.变形飞行器深度强化学习姿态控制方法研究[J].航天控制,2022(6):3-10.

作者姓名：	马少捷惠俊鹏王宇航张旋

作者单位：	1. 中国运载火箭技术研究院研究发展部;2. 北京航天长征飞行器研究所

摘要：	针对变形飞行器动力学模型非线性强、不确定性大，以及变形引起模型变化范围大的问题，基于双延迟深度确定性策略梯度算法提出了一种深度强化学习姿态控制方法。首先，基于多刚体系统建立了变形飞行器动力学模型，然后在马尔可夫决策过程的框架下设计了算法所需状态空间、动作空间以及奖励函数，通过在状态空间中引入姿态跟踪误差历史信息，进一步提高了控制精度，并将策略网络与传统PD控制结合形成复合控制器，提高了算法训练效率，最后通过数学仿真验证了深度强化学习控制策略对变形过程模型不确定性与外界复杂干扰的强鲁棒性，以及对不同变形指令的强适应性。
关键词：	变形飞行器深度强化学习双延迟深度确定性策略梯度姿态控制