首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
针对变形飞行器动力学模型非线性强、不确定性大,以及变形引起模型变化范围大的问题,基于双延迟深度确定性策略梯度算法提出了一种深度强化学习姿态控制方法。首先,基于多刚体系统建立了变形飞行器动力学模型,然后在马尔可夫决策过程的框架下设计了算法所需状态空间、动作空间以及奖励函数,通过在状态空间中引入姿态跟踪误差历史信息,进一步提高了控制精度,并将策略网络与传统PD控制结合形成复合控制器,提高了算法训练效率,最后通过数学仿真验证了深度强化学习控制策略对变形过程模型不确定性与外界复杂干扰的强鲁棒性,以及对不同变形指令的强适应性。  相似文献   

2.
超高速跨域飞行、敏捷机动等是新一代飞行器发展方向,而长时高速飞行产生的气动外形变化带来的气动参数大范围改变等问题,都对控制系统设计提出了更高的要求。为提高飞行器对模型不确定性的适应能力及控制方法对不同外形、复合执行机构的通用性,深入研究了弱模型依赖的通用智能姿态控制技术,分层次地开展了基于深度学习(DL)的自适应姿态控制、基于深度确定性策略梯度算法(DDPG)的通用姿态控制、弱模型依赖的多维复合控制等技术研究,显著提高了控制系统的鲁棒性和通用性,对人工智能技术在飞行器姿态控制中的应用具有一定的指导意义。  相似文献   

3.
针对大气层内高速机动目标的拦截问题,提出了一种基于双延迟深度确定性策略梯度(TD3)算法的深度强化学习制导律,它直接将交战状态信息映射为拦截弹的指令加速度,是一种端到端、无模型的制导策略。首先,将攻防双方的交战运动学模型描述为适用于深度强化学习算法的马尔科夫决策过程,之后通过合理地设计算法训练所需的交战场景、动作空间、状态空间和网络结构,并引入奖励函数整形和状态随机初始化,构建了完整的深度强化学习制导算法。仿真结果表明:与比例导引和增强比例导引两种方案相比,深度强化学习制导策略在脱靶量更小的同时能够降低对中制导精度的要求;具有良好的鲁棒性和泛化能力,并且计算负担较小,具备在弹载计算机上运行的条件。  相似文献   

4.
为提高导弹在攻击角度约束下对目标的打击效能,提出了一种基于深度确定性策略梯度算法的分布式强化学习制导策略。为了最大限度地减小攻击角度误差,设计了一种新的奖励函数,使导弹在满足视场角约束的同时,视线角向期望值收敛。此外,为了增强强化学习模型的泛化能力,提出了一种分布式探索策略,提高了模型训练过程中对环境的探索效率。仿真结果验证了所提出的分布式强化学习制导方法能够在固定攻击角度约束下实现对目标的精准打击。与传统制导律相比,所提制导方法的攻击角度误差更小,收敛速度更快。  相似文献   

5.
张远  黄万伟  聂莹  路坤锋 《宇航学报》2022,43(12):1665-1675
针对一类高速可变形飞行器(HMFV)的变形决策问题,提出一种基于深度确定性策略算法(DDPG)下考虑综合性能指标最优的智能变形决策方法。首先,以一类后掠角可连续变化的高速飞行器为研究对象,给出变形飞行器动力学模型,分析模型特性及变形量与关键气动参数之间的定性关系。其次,基于关键气动数据特征分析,考虑包含气动性能、控制误差在内的综合性能指标,设计一种基于DDPG算法的智能变形决策方案。再者,针对带有标称控制器的HMFV进行变形决策训练,实时获得滑翔过程中不同飞行状态下的最优构型。最后,仿真结果表明所设计的智能变形决策算法收敛效果好,且具备较好的泛化性能。相比于固定外形,可通过变形使得在不同状态下的升阻比保持最优,且与考虑单一决策指标相比,考虑综合指标最优的变形决策可进一步缩小姿态动态跟踪误差。  相似文献   

6.
针对强化学习策略由仿真环境向实际迁移困难的问题,以提高无人机采用无深度信息单目视觉时的行人规避能力为目标,提出一种基于异步深度神经网络结构的跨传感器迁移学习方法。首先,在仿真环境中仅使用虚拟单线激光雷达作为传感器,通过基于确定性策略梯度(DDPG)的深度强化学习方法,训练得到一个稳定的初级避障策略。其次,用单目摄像头和激光雷达同步采集现实环境中的视觉和深度数据集并逐帧绑定,使用上述初级避障策略对现实数据集进行自动标注,进而训练得到无需激光雷达数据的单目视觉避障策略,实现从虚拟激光雷达到现实单目视觉的跨传感器迁移学习。最后,引入YOLO v3-tiny网络与Resnet18网络组成异步深度神经网络结构,有效提高了存在行人场景下的避障性能。  相似文献   

7.
裴培  何绍溟  王江  林德福 《宇航学报》2021,42(10):1293-1304
研究了一种基于深度强化学习理论的制导控制一体化算法。不同于传统的制导控制一体化算法和制导控制回路分开设计的方法,基于深度强化学习理论的制导控制一体化算法利用深度学习强化算法生成一个智能体,智能体根据导弹的观测量生成舵偏角控制指令准确拦截目标。首先将制导控制问题转化为一个马尔可夫决策过程,然后提出了一个权衡制导精度、能量损耗和飞行时间的奖励函数,将制导控制问题转化到强化学习问题的框架中。最后采用深度确定性策略梯度算法,求解提出的强化学习问题,训练得到制导控制智能体,智能体根据导弹观测量生成舵偏角指令。通过进行大量的数值模拟,验证了提出的制导控制一体化算法的有效性和鲁棒性。  相似文献   

8.
利用强化学习技术,本文提出了一种超参数自适应的燃料最优地球同步轨道(GEO)航天器交会变轨策略优化方法。首先,建立了GEO航天器交会Lambert变轨模型。以变轨时刻为决策变量、燃料消耗为适应度函数,使用改进式综合学习粒子群算法(ICLPSO)作为变轨策略优化的基础方法。其次,考虑到求解的最优性和快速性,重新设计了以粒子群算法(PSO)优化结果为参考基线的奖励函数。使用一族典型GEO航天器交会工况训练深度确定性策略梯度神经网络(DDPG)。将DDPG与ICLPSO组合为强化学习粒子群算法(RLPSO),从而实现算法超参数根据实时迭代收敛情况的自适应动态调整。最后,仿真结果表明与PSO、综合学习粒子群算法(CLPSO)相比,RLPSO在较少迭代后即可给出适应度较高的规划结果,减轻了迭代过程中的计算资源消耗。  相似文献   

9.
提出一种航天器反应式碎片规避动作规划方法,首先以扰动流体动态系统(IFDS)算法作为动作规划的基础算法,通过其中的总和扰动矩阵对航天器的轨道速度矢量进行修正,实现轨道机动规避;然后,建立基于双延迟深度确定性策略梯度(TD3)深度强化学习算法的反应式动作规划方法,通过TD3在线优化IFDS规划参数,实现对碎片群的“状态-动作”最优、快速规避决策。在此基础上,将优先级经验回放和渐进式学习策略引入该方法中,提升训练效率。最后,仿真结果表明,所提方法可使航天器安全规避多发、突发、动态且形状各异的空间碎片群,且具有较好的实时性。  相似文献   

10.
针对多无人机任务决策方法研究中传统优化算法难以在短时间内得到期望结果的问题,基于深度强化学习提出一种无人机多智能体深度确定性策略梯度(MADDPG)算法,通过允许无人机在学习时使用全局信息,在应用决策的时候只使用局部信息的方法,从网络结构、状态空间、动作空间和奖励函数设计了 MADDPG算法的模型结构.最后通过仿真实验...  相似文献   

11.
吴祥兵  赵杰亮 《宇航学报》2021,42(7):830-838
设计具有变形能力的飞行器结构,通过主动改变其气动外形是提高空天飞行器飞行能力和环境自适应性的有效途径。本文提出了一种可实现单侧弯曲与多级伸展变形的空天飞行器非圆截面变体头锥机构设计方法,可独立进行头锥的多级伸展及弯曲运动,实现变体形式多样化;通过在伸展机构级间设计锁定装置,保证了头锥变形的展开稳定性。结合飞行工况,计算了头锥伸展过程中所受载荷及所需驱动力。头锥伸展及弯曲运动仿真结果论证了方案的可行性。在给定驱动模式下头锥机构的轴向最大伸展位移与体长比为0.43,伸展弯曲比可达3.5。通过分析变形过程的位移、速度及加速度变化规律发现,所设计的变体头锥机构可实现较好的运动特性和运动平稳性。  相似文献   

12.
针对飞行器传统增益调参法依赖于人工经验繁琐费时、难以实现参数自整定的缺点,提出了利用强化学习中的深度Q网络算法与飞行环境状态的交互不断学习,实现对控制增益的自动调整动作。训练结果表明,该方法使高速飞行器能够自适应调整控制增益,稳定跟踪攻角指令,节省了人工调参步骤及时间,有效提高了控制系统自适应性。  相似文献   

13.
针对变体飞行器实时控制翼型形状的需求,提出了基于深度学习的翼型反设计方法,利用多层感知机搭建了由生成器与判别器组成的条件生成对抗网络。生成器从带有随机噪声的气动参数中提取内在特征,习得特征到翼型的映射关系;判别器则将生成器产生的翼型或真实翼型与前述气动参数混合作为输入,输出该翼型为符合指定气动条件的真实翼型的概率。为了优化网络模型,研究并分析了噪声尺寸、超参数及网络结构对模型收敛性能的影响。训练好的网络模型即可根据给定的期望气动参数,快速生成配套的翼型。测试结果表明预测翼型与真实翼型的均方根误差的平均值为0.17%,耗时仅为23 ms,大大提高了设计精度与效率;并且在有噪声干扰情况下依旧保持良好的设计性能,增强了翼型设计模型的鲁棒性。研究成果可以应用于变体飞行器自适应在线最优气动构型控制。  相似文献   

14.
针对助推滑翔变体飞行器弹道方案最优变形求解难、多设计指标相互矛盾等问题,开展助推滑翔变体飞行器弹道方案多目标设计优化研究。首先构建了助推滑翔变体飞行器全程弹道方案优化框架,通过内外层分别优化控制参数及弹道方案参数,并建立了以起飞质量最小、射程最大为优化目标的弹道方案多目标优化模型。在弹道建模中,基于牛顿迭代法建立助推段弹道模型,基于伪谱法建立最优变体再入滑翔段弹道模型。此外,提出了基于差分进化的多目标近似约束优化方法(MACO-DE),实现助推滑翔变体飞行器弹道方案优化。对比初始方案,在射程不变情况下,起飞质量至多降低3.81%,在起飞质量不变情况下,射程至多提升6.62%,从而验证了全程弹道模型的合理性与MACO-DE方法的有效性。  相似文献   

15.
针对高速机动飞行器常用的程序化机动突防方式适应性不强、突防效果不稳定的问题,提出了一种基于深度强化学习算法的机动博弈制导方法。该方法以增大交会摆脱量为任务目标,采用深度神经网络拟合飞行器的制导律,应用强化学习方法训练网络参数,得到一种以突防拦截双方的位置和速度为输入、以飞行器的需用过载为输出的智能机动博弈制导律。数学仿真验证结果表明,在连续的状态空间和动作空间中,飞行器能根据当前态势自主选择合适的制导指令。相比传统突防方式,该制导律显著提升了交会摆脱量,且突防效果更稳定。  相似文献   

16.
飞行器多学科不确定性设计理论概述   总被引:12,自引:2,他引:12  
张为华  李晓斌 《宇航学报》2004,25(6):702-706
设计是充分利用设计知识做出智能决策得到最优解的过程,在基于建模与仿真的飞行器设计过程中,由于客观存在的不确定性,产生基于模型预估结果与真实结果的不一致。飞行器传统设计采用基于串行的确定性设计方法,无法得到性能、可支付性、可靠性、鲁棒性等综合平衡的设计。本文旨在建立飞行器多学科不确定性设计理论,介绍解决飞行器多学科不确定性设计相关计算、组织和不确定性科学处理复杂性问题的方法和基本思想。  相似文献   

17.
在未来的局部战争中,导弹攻防对抗将成为一个重要的作战样式。用智能小车的追逃来模拟导弹攻防对抗过程,并以深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法为原型,以视距和视线角为状态,借鉴PID控制思想设计回报函数,提出了一种追逃博弈算法。该算法分别在数学仿真和智能小车实物上进行了验证,实验结果表明算法可以有效地控制小车使其完成追捕任务,并且具有很好的适应性。  相似文献   

18.
基于DDQN的运载火箭姿态控制器参数设计   总被引:1,自引:0,他引:1  
探索了利用深度强化学习算法训练智能体,以代替人类工程师进行火箭姿态控制器参数的离线设计方案。建立了多特征秒的火箭频域分析模型,选定了设计参数。选择深度强化学习算法中的双深度Q学习(Double Deep Q Network,DDQN)算法,通过记忆回放和时间差分迭代的方式让智能体在与环境交互过程中不断学习。设计了对应的马尔科夫决策过程模型,进行了智能体的训练和前向测试。结果说明该方法对于运载火箭姿控设计具有一定参考价值。  相似文献   

19.
针对再入飞行器姿态控制问题,应用自适应动态规划(ADP)理论设计了姿态控制器。将再入飞行器的姿态控制建模为非线性系统的最优控制问题,提出单网络积分型强化学习(SNIRL)算法进行求解,该算法简化了积分型强化学习(IRL)算法在迭代计算中的执行-评价双网络结构,只需要采用评价网络估计值函数就可以求得最优控制律,其收敛性得到了理论证明。基于SNIRL算法设计了自适应最优控制器,并证明了闭环系统的稳定性。通过数值仿真校验了SNIRL算法比IRL算法计算效率更高,收敛速度更快,并校验了自适应最优姿态控制器的有效性 。  相似文献   

20.
将FFD(Free Form Deformation)自由变形法与无限插值动网格方法相结合,发展了一种飞行器参数化建模和网格生成方法。二维和三维的实例显示自由变形之后得到的飞行器几何外形及其对应的网格能保持平滑光顺,验证了方法的有效性。在此基础上,结合径向基函数代理模型和CFD技术发展了一套优化设计方法并对高超声速升力体外形进行了气动优化。基于自适应模拟退火算法的单目标优化表明,在保持原有外形体积不减小的情况下,升阻比提高了1.28%;基于NSGA-II的多目标优化得到了飞行器升阻比和体积的最优解集,典型优化外形的升阻比和体积分别提高了2.93%和2.49%。升力体的优化结果表明了FFD方法的有效性和优化设计方法的实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号