首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
裴培  何绍溟  王江  林德福 《宇航学报》2021,42(10):1293-1304
研究了一种基于深度强化学习理论的制导控制一体化算法。不同于传统的制导控制一体化算法和制导控制回路分开设计的方法,基于深度强化学习理论的制导控制一体化算法利用深度学习强化算法生成一个智能体,智能体根据导弹的观测量生成舵偏角控制指令准确拦截目标。首先将制导控制问题转化为一个马尔可夫决策过程,然后提出了一个权衡制导精度、能量损耗和飞行时间的奖励函数,将制导控制问题转化到强化学习问题的框架中。最后采用深度确定性策略梯度算法,求解提出的强化学习问题,训练得到制导控制智能体,智能体根据导弹观测量生成舵偏角指令。通过进行大量的数值模拟,验证了提出的制导控制一体化算法的有效性和鲁棒性。  相似文献   

2.
针对多无人机任务决策方法研究中传统优化算法难以在短时间内得到期望结果的问题,基于深度强化学习提出一种无人机多智能体深度确定性策略梯度(MADDPG)算法,通过允许无人机在学习时使用全局信息,在应用决策的时候只使用局部信息的方法,从网络结构、状态空间、动作空间和奖励函数设计了MADDPG算法的模型结构。最后通过仿真实验,并对比深度确定性策略梯度(DDPG)算法,验证了本文提出的MADDPG算法在保证精度的基础上,学习速度大幅度提高,弥补了传统强化学习算法在多智能体领域的不足。  相似文献   

3.
为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况下,仍具有一定的自主协同能力及独立实现多星观测任务的高效分配能力。  相似文献   

4.
基于深度强化学习策略,研究了一类变体飞行器外形自主优化问题。以一种抽象化的变体飞行器为对象,给出其外形变化公式与最优外形函数等。结合深度学习与确定性策略梯度强化学习,设计深度确定性策略梯度(DDPG)学习步骤,使飞行器经过训练学习后具有较高的自主性和环境适应性,提高其在战场上的生存、应变和攻击能力。仿真结果表明,训练过程收敛较快,训练好的深度网络参数可以使飞行器在整个飞行任务过程中达到最优气动外形。  相似文献   

5.
基于多智能体强化学习的轨道追逃博弈方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法.首先通过对博弈场景进行建模,在考虑最短时间、最优燃料以及碰撞规避的情形下进行奖励函数的塑造和改进,利用深度强化学习方法中的...  相似文献   

6.
针对大气层内高速机动目标的拦截问题,提出了一种基于双延迟深度确定性策略梯度(TD3)算法的深度强化学习制导律,它直接将交战状态信息映射为拦截弹的指令加速度,是一种端到端、无模型的制导策略。首先,将攻防双方的交战运动学模型描述为适用于深度强化学习算法的马尔科夫决策过程,之后通过合理地设计算法训练所需的交战场景、动作空间、状态空间和网络结构,并引入奖励函数整形和状态随机初始化,构建了完整的深度强化学习制导算法。仿真结果表明:与比例导引和增强比例导引两种方案相比,深度强化学习制导策略在脱靶量更小的同时能够降低对中制导精度的要求;具有良好的鲁棒性和泛化能力,并且计算负担较小,具备在弹载计算机上运行的条件。  相似文献   

7.
徐帷  卢山 《宇航学报》2019,40(4):435-443
针对目标特性未知的在轨操作环境,研究了典型空间操作机械臂的路径规划策略。采用Sarsa(λ)强化学习方法实现目标跟踪及避障的自主路径规划与智能决策,该方法将机械臂系统的每节臂视为一个决策智能体,通过感知由目标偏差和障碍距离程度组成的二维状态,设计符合人工经验的拟合奖赏函数,进行各臂转动动作的强化训练,最终形成各智能体的状态-动作值函数表,即可作为机械臂在线路径规划的决策依据。将本方法应用于多自由度空间机械臂路径规划任务,仿真结果表明新算法能在有限训练次数内实现对移动目标的稳定跟踪与避障,同时各智能体通过学习所得的状态-动作值函数表,具备较强的后期在线自主调整能力,从而验证了算法较强的鲁棒性和智能性。  相似文献   

8.
王英杰  袁利  汤亮  黄煌  耿远卓 《宇航学报》2023,(10):1522-1533
针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输出结构进行设计,并引入具有记忆功能的长短期记忆网络(LSTM),根据航天器轨道运动在时间、空间连续的属性,补偿位置、速度测量信息的非完备性。然后采用近端策略优化(PPO)算法开展红蓝左右互搏式学习训练。最后通过三组对比训练实验,验证了所提出的方法在信息非完备约束下能够有效增强学习训练过程的稳定性,并提升任务完成率和降低燃料消耗。  相似文献   

9.
利用强化学习技术,本文提出了一种超参数自适应的燃料最优地球同步轨道(GEO)航天器交会变轨策略优化方法。首先,建立了GEO航天器交会Lambert变轨模型。以变轨时刻为决策变量、燃料消耗为适应度函数,使用改进式综合学习粒子群算法(ICLPSO)作为变轨策略优化的基础方法。其次,考虑到求解的最优性和快速性,重新设计了以粒子群算法(PSO)优化结果为参考基线的奖励函数。使用一族典型GEO航天器交会工况训练深度确定性策略梯度神经网络(DDPG)。将DDPG与ICLPSO组合为强化学习粒子群算法(RLPSO),从而实现算法超参数根据实时迭代收敛情况的自适应动态调整。最后,仿真结果表明与PSO、综合学习粒子群算法(CLPSO)相比,RLPSO在较少迭代后即可给出适应度较高的规划结果,减轻了迭代过程中的计算资源消耗。  相似文献   

10.
张瑞卿  钟睿  徐毅 《上海航天》2023,40(1):80-85
航天器在轨执行某些任务时,其质量参数会发生未知变化,传统控制方法在这种情况下控制效果不佳。本文提出基于强化学习的航天器姿态控制器设计方法,该方法在姿态控制器训练过程中不需要对航天器进行动力学建模,不依赖航天器的质量参数。当质量参数发生较大未知变化时,训练好的控制器仍然可以保持较好的控制效果。仿真测试表明:使用基于强化学习方法训练的控制器确实具有良好的鲁棒性。此外,回报函数的设计会明显影响姿态控制器的训练,因此对不同的回报函数设计进行了研究。  相似文献   

11.
在运载火箭的总体设计中,火箭长细比是一个非常重要的设计参数,它对火箭构型方案的确定、箭体直径的选取等具有决定性影响,通常需要综合权衡载荷、结构效率、姿控稳定性、生产制造以及运输等多方面的因素来确定,火箭长细比设计对箭体直径统一、火箭型谱研究也有重要意义。梳理了火箭长细比设计过程中应遵循的原则,简要介绍了火箭长细比优化设计的方法和途径,并分析了长细比对运载火箭设计的主要影响。  相似文献   

12.
无人机集群路径规划算法是无人机集群控制的重要研究方向之一.多无人机路径规划相较于单无人机路径规划,会考虑空间协同和时间协同约束、飞行安全等问题.首先对无人机集群路径规划算法进行分类,分为传统路径规划算法、智能优化算法和深度强化学习算法.其次对各类算法进行简要分析和总结,针对缺陷,给出相应的改进思路及例子.再着重对深度强...  相似文献   

13.
基于注意力机制特征重建网络的舰船目标检测   总被引:1,自引:2,他引:1       下载免费PDF全文
深度学习为遥感领域诸多应用提供了重要的技术支撑,光学遥感图像的舰船目标检测对国防侦察和预警具有重要意义。真实场景中的舰船往往呈不同方向任意排列,且小目标的占比大,经典的深度学习目标检测算法在这种复杂条件下精度低、易漏检。为此,本文设计了基于注意力机制特征重建网络的舰船目标检测算法。首先,通过引入注意力机制对多尺度特征融合网络模型进行训练,以高召回率产生水平锚框;然后,旋转锚框以缓解密集排列目标引起的噪声问题,并利用特征重建模块来缓解特征不对齐的问题,实现模型精炼。在HRSC2016和DOTA数据集上的测试结果表明:舰船目标检测平均精度分别达到90.20和87.52,相比经典的深度学习目标检测算法得到了有效提升,并在模拟星载嵌入式智能图像处理平台上验证了算法在轨应用的可行性。  相似文献   

14.
地物分类是PolSAR(极化合成孔径雷达)的重要应用方向。传统算法需要基于特定数据人工选取特征和设计分类器,而深度学习算法能够自行从海量数据中提取层次化特征。在深度学习算法总结的基础上,结合深度学习和PolSAR大数据,提出了一种高效率、高精度的通用分类器设计方法。使用人工标记的数据训练CNN(深度卷积网络),自动化地进行特征学习和提取,并实现高精度的地物自动分类。在具有不同分辨率的机载和星载PolSAR数据上对通用分类器进行测试,都能快速、准确地分类。研究成果可快速将PolSAR数据转译为更直观的地物分类结果,对海量数据,特别是GF-3卫星PolSAR图像的利用有一定的辅助价值。  相似文献   

15.
田琪  吴飞 《航天控制》2023,(4):13-19
多智能体系统在许多实际领域中得到了广泛应用,包括机器人技术、分布式控制和多人游戏等。这些领域中的许多复杂任务无法通过预定义的智能体行为来解决,而基于通信的多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)技术是应对这些挑战的有效方法之一。该领域存在2个核心问题:1)如何建立有效的多智能体通信机制,从而提升多智能体系统的整体性能;2)在带宽受限的场景下,如何设计高效的通信调度方案从而压缩通信过程中冗余信息。本文首先对处理这两个核心问题的文献进行了概述并重点介绍具有代表性的一些工作,接着说明其在航天领域的应用前景,最后进行总结。  相似文献   

16.
针对航天发射的特点,将智能决策和空间信息处理技术运用于航天发射飞行的安 全判决中,建立发射场及其飞行航区的基础地理数据库和基础信息数据库。分析飞行过程中 瞬时落点区域的地理属性,实现火箭飞行过程中安全管道、预示落点、飞行参数和飞行轨迹 等在数字地图上的实时显示,实时监控火箭的飞行状态。在决策中提出了“目标-规则基-特 征状态体”的领域知识表示模型,为火箭飞行的安全提供实时辅助决策。
  相似文献   

17.
为提高导弹在攻击角度约束下对目标的打击效能,提出了一种基于深度确定性策略梯度算法的分布式强化学习制导策略。为了最大限度地减小攻击角度误差,设计了一种新的奖励函数,使导弹在满足视场角约束的同时,视线角向期望值收敛。此外,为了增强强化学习模型的泛化能力,提出了一种分布式探索策略,提高了模型训练过程中对环境的探索效率。仿真结果验证了所提出的分布式强化学习制导方法能够在固定攻击角度约束下实现对目标的精准打击。与传统制导律相比,所提制导方法的攻击角度误差更小,收敛速度更快。  相似文献   

18.
在构建材料和结构数据库的基础上,针对固体火箭发动机结构特点,以避免选材的盲目性和提高结构设计的合理性为目的,提出了基于数据库技术的固体火箭发动机结构优化的设计思路。同时,探讨了以数据的智能搜索和结构的参数化、变量化建模为核心的固体火箭发动机结构优化设计方法。  相似文献   

19.
为进行重力空射稳定伞的初步设计,文章以多体动力学软件(ADAMS)为二次开发平台,构建了重力空射箭-伞系统的动力学仿真模型;推导了火箭和稳定伞的气动模型,并利用动态链接子程序实现了气动力的加载;通过ADAMS命令语言建立了参数化模型和用户界面。在此基础上,自编可行方向优化算法实现了稳定伞阻力特征的自动化设计。最后,根据仿真计算结果对试验火箭出舱时间、安全通道、回收方式等问题进行了分析,为后续空射稳定伞的细节设计以及空射总体方案的确定提供了参考。  相似文献   

20.
龙中权  赵民  付继伟  陈曦  齐欢 《宇航学报》2018,39(10):1141-1147
本文分析了火箭在飞行过程中的强电磁脉冲(EMP)环境,建立了箭上敏感设备受强电磁脉冲干扰的优化设计模型,包括传导干扰及辐射干扰两种设计模型。针对起飞质量对火箭总体参数设计的制约问题,以最小质量增量为目标函数,采用模拟退火(SA)算法,对箭上典型电气系统抗强电磁脉冲防护进行优化设计研究,为箭上敏感设备抗强电磁脉冲指标与质量增量提供了平衡选取方法。优化结果表明,火箭在飞行过程中典型电气系统的抗强电磁脉冲性能指标达到要求的同时,实现了火箭质量增量最小的目标。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号