共查询到19条相似文献,搜索用时 78 毫秒
1.
针对临近空间高超声速飞行器的高速性、机动性等特性,为提高制导算法针对不同初始状态、不同机动性目标的准确性、鲁棒性及智能性,提出一种基于信赖域策略优化(TRPO)算法的深度强化学习制导算法。基于TRPO算法的制导算法由2个策略(动作)网络、1个评价网络共同组成,将临近空间目标与拦截弹相对运动系统状态以端对端的方式直接映射为制导指令。在算法训练过程中合理选取连续动作空间、状态空间、并通过权衡能量消耗、相对距离等因素构建奖励函数加快其收敛速度,最终依据训练的智能体模型针对不同任务场景进行拦截测试。仿真结果表明:与传统比例导引律(PN)及改进比例导引律(IPN)相比,本文算法针对学习场景及未知场景均具有更小的脱靶量、更稳定的拦截效果、鲁棒性,并能够在多种配置计算机上广泛应用。 相似文献
2.
根据可靠性理论和对导弹末制导雷达单元测试中“天线搜索周期”、“战斗指令记忆时间”项目的具体分析,提出了该两个项目的检查可以取消的观点,为反舰导弹末制导雷达单元测试项目的优化进行了初步探讨。 相似文献
3.
针对高升阻比面对称飞行器末制导小空域、短航时条件下的大速域控制问题,提出一种分段导引策略的末制导轨迹设计方法。首先,提出一种分段导引策略,将末制导轨迹分为速度导引段和位置导引段,将多状态量的控制问题转化为分段协调控制问题;其次,速度导引段基于三次样条曲线模型解析规划飞行剖面,采用高度自适应的剖面校正方式实现高精度的速度控制;最后,位置导引段引入带速度修正的比例导引,在进行速度控制的同时满足落点、落角等约束。仿真结果表明,落点、落角控制较好,同时速度控制精度在速度控制量的2.5%以内,对再入点参数及飞行环境等扰动具有很好的适应性,具有较强的工程应用价值。 相似文献
4.
5.
6.
一种改进的末制导雷达目标捕捉概率解析算法 总被引:11,自引:3,他引:11
在对末制导雷达捕捉目标全过程分析的基础上,指出了末制导雷达目标捕捉概率的解析算法存在的问题,并针对存在的问题,提出了改进的方法,改进后的算法较原算法更合理. 相似文献
7.
基于FTA的末制导雷达故障诊断专家系统研究 总被引:1,自引:0,他引:1
以某型末制导雷达为例,阐述了基于 FTA 技术的故障诊断专家系统的重要应用。文中首先论述了末制导雷达故障诊断专家系统的构成;其次论述了知识库的组成、故障树和规则的概念、推理机的工作原理,最后论述了系统的自学习机制。 相似文献
8.
针对三维导弹-目标相对运动模型,结合反演控制、滑模控制和自适应技术,设计了一种新的自适应反演滑模末制导律。针对目标机动加速度上界难以获取的问题,将目标机动加速度视作模型的干扰,设计了一种自适应律对其进行在线估计,并将估计值补偿到制导律中。运用李亚普诺夫稳定性理论证明了系统的全局渐进稳定性和误差的收敛性。仿真结果证明了所设计的自适应反演滑模末制导律对机动目标的鲁棒性和有效性。 相似文献
9.
随着武器作战样式的变革,带约束条件下的末制导律研究受到了越来越广泛的关注。评述了近年来约束条件下的末制导律的研究新进展,对目前约束条件下的末制导律设计进行了详细的研究,分析了各种方法的优缺点。在此基础上,对比给出了多约束条件下的末制导律设计的难题以及可能解决的途径。 相似文献
10.
针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互数据训练判别器网络,并反馈调节策略网络,实现了约束策略向专家策略方向优化,提高了算法收敛效率和专家经验利用率。仿真环境为基于 JSBSim开源平台的 F-16飞机空气动力学模型。仿真结高,PPO果表明,本文算法收敛效率高于算法,生成的策略模型具备较好的智能性。 相似文献
11.
当前多智能体追逃博弈问题通常在二维平面下展开研究,且逃逸方智能体运动不受约束,同时传统方法在缺乏准确模型时存在设计控制策略困难的问题。针对三维空间中逃逸方智能体运动受约束的情况,提出了一种基于深度Q网络(DQN)的多智能体逃逸算法。该算法采用分布式学习的方法,逃逸方智能体通过对环境的探索学习得到满足期望的逃逸策略。为提高学习效率,根据任务的难易程度将智能体策略学习划分为两个阶段,并设计了相应的奖励函数引导智能体探索满足期望的逃逸策略。仿真结果表明,该算法所得逃逸策略效果稳定,并且具有泛化能力,在改变一定的初始位置条件后,逃逸方智能体也可成功逃逸。 相似文献
12.
13.
针对Q-学习算法中探索与利用之间的平衡问题,在基于Metropolis准则的Q-学习的基础上,提出了基于探索区域扩张策略的Q-学习改进算法。消除了初始时刻在整个环境中加入探索的盲目性。提高了学习效率。通过加入算法的自主学习结束条件,避免了找到最优路径后的重复学习,节省了学习时间。仿真实验证明了该算法的有效性。 相似文献
14.
无人机栖落机动飞行是一种无需跑道的降落方法,能够提升无人机在复杂环境下执行任务的适应能力。针对具有高非线性、多约束特性的无人机栖落机动过程,提出了一种基于模仿深度强化学习的控制策略设计方法。首先,建立了固定翼无人机栖落机动的纵向非线性动力学模型,并设计了无人机栖落机动的强化学习环境。其次,针对栖落机动状态动作空间大的特点,为了提高探索效率,通过模仿专家经验的方法对系统进行预训练。然后,以模仿学习得到的权重为基础,采用近端策略优化方法学习构建无人机栖落机动的神经网络控制器。最后,通过仿真验证了上述控制策略设计方法的有效性。 相似文献
15.
已有的空中格斗控制方法未综合考虑基于专家知识的态势评估及通过连续性速度变化控制空战格斗的问题。基于深度确定性策略梯度(DDPG)强化学习算法,在态势评估函数作为强化学习奖励函数的基础上,设计综合考虑飞行高度上下限、飞行过载以及飞行速度上下限的强化学习环境;通过全连接的载机速度控制网络与环境奖励网络,实现DDPG算法与学习环境的交互,并根据高度与速度异常、被导弹锁定时间以及格斗时间设计空战格斗结束条件;通过模拟一对一空战格斗,对该格斗控制方法在环境限制学习、态势评估得分以及格斗模式学习进行验证。结果表明:本文提出的空战格斗控制方法有效,能够为自主空战格斗进一步发展提供指导。 相似文献
16.
针对带未知参数且执行重复任务的机械臂,提出一种自适应迭代学习控制算法。为了克服因重置精度低带来的重置误差,引入了终态滑模和初始状态修正吸引子,实现了跟踪误差在有限时间收敛于0,并通过迭代轴上的自适应算法来调节控制器参数。理论证明了跟踪误差的收敛性和系统中所有信号的有界性,仿真结果验证了算法的有效性。 相似文献
17.
18.