首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
裴培  何绍溟  王江  林德福 《宇航学报》2021,42(10):1293-1304
研究了一种基于深度强化学习理论的制导控制一体化算法。不同于传统的制导控制一体化算法和制导控制回路分开设计的方法,基于深度强化学习理论的制导控制一体化算法利用深度学习强化算法生成一个智能体,智能体根据导弹的观测量生成舵偏角控制指令准确拦截目标。首先将制导控制问题转化为一个马尔可夫决策过程,然后提出了一个权衡制导精度、能量损耗和飞行时间的奖励函数,将制导控制问题转化到强化学习问题的框架中。最后采用深度确定性策略梯度算法,求解提出的强化学习问题,训练得到制导控制智能体,智能体根据导弹观测量生成舵偏角指令。通过进行大量的数值模拟,验证了提出的制导控制一体化算法的有效性和鲁棒性。  相似文献   

2.
为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况下,仍具有一定的自主协同能力及独立实现多星观测任务的高效分配能力。  相似文献   

3.
基于多智能体强化学习的轨道追逃博弈方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法.首先通过对博弈场景进行建模,在考虑最短时间、最优燃料以及碰撞规避的情形下进行奖励函数的塑造和改进,利用深度强化学习方法中的...  相似文献   

4.
基于深度强化学习策略,研究了一类变体飞行器外形自主优化问题。以一种抽象化的变体飞行器为对象,给出其外形变化公式与最优外形函数等。结合深度学习与确定性策略梯度强化学习,设计深度确定性策略梯度(DDPG)学习步骤,使飞行器经过训练学习后具有较高的自主性和环境适应性,提高其在战场上的生存、应变和攻击能力。仿真结果表明,训练过程收敛较快,训练好的深度网络参数可以使飞行器在整个飞行任务过程中达到最优气动外形。  相似文献   

5.
针对多无人机任务决策方法研究中传统优化算法难以在短时间内得到期望结果的问题,基于深度强化学习提出一种无人机多智能体深度确定性策略梯度(MADDPG)算法,通过允许无人机在学习时使用全局信息,在应用决策的时候只使用局部信息的方法,从网络结构、状态空间、动作空间和奖励函数设计了 MADDPG算法的模型结构.最后通过仿真实验...  相似文献   

6.
针对飞行器传统增益调参法依赖于人工经验繁琐费时、难以实现参数自整定的缺点,提出了利用强化学习中的深度Q网络算法与飞行环境状态的交互不断学习,实现对控制增益的自动调整动作。训练结果表明,该方法使高速飞行器能够自适应调整控制增益,稳定跟踪攻角指令,节省了人工调参步骤及时间,有效提高了控制系统自适应性。  相似文献   

7.
针对大气层内高速机动目标的拦截问题,提出了一种基于双延迟深度确定性策略梯度(TD3)算法的深度强化学习制导律,它直接将交战状态信息映射为拦截弹的指令加速度,是一种端到端、无模型的制导策略。首先,将攻防双方的交战运动学模型描述为适用于深度强化学习算法的马尔科夫决策过程,之后通过合理地设计算法训练所需的交战场景、动作空间、状态空间和网络结构,并引入奖励函数整形和状态随机初始化,构建了完整的深度强化学习制导算法。仿真结果表明:与比例导引和增强比例导引两种方案相比,深度强化学习制导策略在脱靶量更小的同时能够降低对中制导精度的要求;具有良好的鲁棒性和泛化能力,并且计算负担较小,具备在弹载计算机上运行的条件。  相似文献   

8.
徐帷  卢山 《宇航学报》2019,40(4):435-443
针对目标特性未知的在轨操作环境,研究了典型空间操作机械臂的路径规划策略。采用Sarsa(λ)强化学习方法实现目标跟踪及避障的自主路径规划与智能决策,该方法将机械臂系统的每节臂视为一个决策智能体,通过感知由目标偏差和障碍距离程度组成的二维状态,设计符合人工经验的拟合奖赏函数,进行各臂转动动作的强化训练,最终形成各智能体的状态-动作值函数表,即可作为机械臂在线路径规划的决策依据。将本方法应用于多自由度空间机械臂路径规划任务,仿真结果表明新算法能在有限训练次数内实现对移动目标的稳定跟踪与避障,同时各智能体通过学习所得的状态-动作值函数表,具备较强的后期在线自主调整能力,从而验证了算法较强的鲁棒性和智能性。  相似文献   

9.
随着认知电子战技术的不断发展,传统雷达干扰决策方法效率低、准确性差等缺点日益凸显。为解决该问题,提出了一种基于优势行动-评论(A2C)的雷达自主干扰决策方法。该方法以A2C强化学习算法为基础构建干扰决策智能体,智能体通过观察环境状态并不断与敌方雷达进行交互以学习自身的干扰策略,最终实时给出有效的干扰决策。最后通过仿真实验对比分析了Deep Q Network (DQN)算法和A2C算法在实时性和准确率等方面的优劣。仿真结果表明,A2C算法具有在未知环境下的干扰策略快速学习和决策的能力,可有效支撑认知电子战背景下的干扰策略选择。  相似文献   

10.
针对变形飞行器动力学模型非线性强、不确定性大,以及变形引起模型变化范围大的问题,基于双延迟深度确定性策略梯度算法提出了一种深度强化学习姿态控制方法。首先,基于多刚体系统建立了变形飞行器动力学模型,然后在马尔可夫决策过程的框架下设计了算法所需状态空间、动作空间以及奖励函数,通过在状态空间中引入姿态跟踪误差历史信息,进一步提高了控制精度,并将策略网络与传统PD控制结合形成复合控制器,提高了算法训练效率,最后通过数学仿真验证了深度强化学习控制策略对变形过程模型不确定性与外界复杂干扰的强鲁棒性,以及对不同变形指令的强适应性。  相似文献   

11.
王英杰  袁利  汤亮  黄煌  耿远卓 《宇航学报》2023,(10):1522-1533
针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输出结构进行设计,并引入具有记忆功能的长短期记忆网络(LSTM),根据航天器轨道运动在时间、空间连续的属性,补偿位置、速度测量信息的非完备性。然后采用近端策略优化(PPO)算法开展红蓝左右互搏式学习训练。最后通过三组对比训练实验,验证了所提出的方法在信息非完备约束下能够有效增强学习训练过程的稳定性,并提升任务完成率和降低燃料消耗。  相似文献   

12.
利用强化学习技术,本文提出了一种超参数自适应的燃料最优地球同步轨道(GEO)航天器交会变轨策略优化方法。首先,建立了GEO航天器交会Lambert变轨模型。以变轨时刻为决策变量、燃料消耗为适应度函数,使用改进式综合学习粒子群算法(ICLPSO)作为变轨策略优化的基础方法。其次,考虑到求解的最优性和快速性,重新设计了以粒子群算法(PSO)优化结果为参考基线的奖励函数。使用一族典型GEO航天器交会工况训练深度确定性策略梯度神经网络(DDPG)。将DDPG与ICLPSO组合为强化学习粒子群算法(RLPSO),从而实现算法超参数根据实时迭代收敛情况的自适应动态调整。最后,仿真结果表明与PSO、综合学习粒子群算法(CLPSO)相比,RLPSO在较少迭代后即可给出适应度较高的规划结果,减轻了迭代过程中的计算资源消耗。  相似文献   

13.
针对高速机动飞行器常用的程序化机动突防方式适应性不强、突防效果不稳定的问题,提出了一种基于深度强化学习算法的机动博弈制导方法。该方法以增大交会摆脱量为任务目标,采用深度神经网络拟合飞行器的制导律,应用强化学习方法训练网络参数,得到一种以突防拦截双方的位置和速度为输入、以飞行器的需用过载为输出的智能机动博弈制导律。数学仿真验证结果表明,在连续的状态空间和动作空间中,飞行器能根据当前态势自主选择合适的制导指令。相比传统突防方式,该制导律显著提升了交会摆脱量,且突防效果更稳定。  相似文献   

14.
张瑞卿  钟睿  徐毅 《上海航天》2023,40(1):80-85
航天器在轨执行某些任务时,其质量参数会发生未知变化,传统控制方法在这种情况下控制效果不佳。本文提出基于强化学习的航天器姿态控制器设计方法,该方法在姿态控制器训练过程中不需要对航天器进行动力学建模,不依赖航天器的质量参数。当质量参数发生较大未知变化时,训练好的控制器仍然可以保持较好的控制效果。仿真测试表明:使用基于强化学习方法训练的控制器确实具有良好的鲁棒性。此外,回报函数的设计会明显影响姿态控制器的训练,因此对不同的回报函数设计进行了研究。  相似文献   

15.
针对目前多智能体集群搜索采用的分区域巡逻策略在搜索具备躲避能力的动态目标时,在分区边界地带搜索效果不佳、巡逻规律易被掌握、无法应对单体故障导致的其管辖区域成为盲区等问题,提出了一种运用强化学习框架的协同搜索策略.该方法通过对作为搜索者的多智能体和随机生成并具有躲避策略的目标进行对抗训练,最终训练出能指导智能体行为的协同...  相似文献   

16.
液体火箭发动机健康检测技术是提高火箭安全性和可靠性的重要技术之一,对其进行研究具有重要的学术和工程应用价值.目前的健康检测方法大多基于特征提取和专家经验,智能检测技术水平急需提高.提出了一种基于卷积自编码器的液体火箭发动机健康状态智能检测方法,对发动机多传感器监测数据进行无监督的特征提取和重构,完成对训练集的学习,并基...  相似文献   

17.
在运载火箭的总体设计中,火箭长细比是一个非常重要的设计参数,它对火箭构型方案的确定、箭体直径的选取等具有决定性影响,通常需要综合权衡载荷、结构效率、姿控稳定性、生产制造以及运输等多方面的因素来确定,火箭长细比设计对箭体直径统一、火箭型谱研究也有重要意义。梳理了火箭长细比设计过程中应遵循的原则,简要介绍了火箭长细比优化设计的方法和途径,并分析了长细比对运载火箭设计的主要影响。  相似文献   

18.
无人机集群路径规划算法是无人机集群控制的重要研究方向之一.多无人机路径规划相较于单无人机路径规划,会考虑空间协同和时间协同约束、飞行安全等问题.首先对无人机集群路径规划算法进行分类,分为传统路径规划算法、智能优化算法和深度强化学习算法.其次对各类算法进行简要分析和总结,针对缺陷,给出相应的改进思路及例子.再着重对深度强...  相似文献   

19.
地物分类是PolSAR(极化合成孔径雷达)的重要应用方向。传统算法需要基于特定数据人工选取特征和设计分类器,而深度学习算法能够自行从海量数据中提取层次化特征。在深度学习算法总结的基础上,结合深度学习和PolSAR大数据,提出了一种高效率、高精度的通用分类器设计方法。使用人工标记的数据训练CNN(深度卷积网络),自动化地进行特征学习和提取,并实现高精度的地物自动分类。在具有不同分辨率的机载和星载PolSAR数据上对通用分类器进行测试,都能快速、准确地分类。研究成果可快速将PolSAR数据转译为更直观的地物分类结果,对海量数据,特别是GF-3卫星PolSAR图像的利用有一定的辅助价值。  相似文献   

20.
针对航天发射的特点,将智能决策和空间信息处理技术运用于航天发射飞行的安 全判决中,建立发射场及其飞行航区的基础地理数据库和基础信息数据库。分析飞行过程中 瞬时落点区域的地理属性,实现火箭飞行过程中安全管道、预示落点、飞行参数和飞行轨迹 等在数字地图上的实时显示,实时监控火箭的飞行状态。在决策中提出了“目标-规则基-特 征状态体”的领域知识表示模型,为火箭飞行的安全提供实时辅助决策。
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号