共查询到20条相似文献,搜索用时 171 毫秒
1.
研究了一种基于深度强化学习理论的制导控制一体化算法。不同于传统的制导控制一体化算法和制导控制回路分开设计的方法,基于深度强化学习理论的制导控制一体化算法利用深度学习强化算法生成一个智能体,智能体根据导弹的观测量生成舵偏角控制指令准确拦截目标。首先将制导控制问题转化为一个马尔可夫决策过程,然后提出了一个权衡制导精度、能量损耗和飞行时间的奖励函数,将制导控制问题转化到强化学习问题的框架中。最后采用深度确定性策略梯度算法,求解提出的强化学习问题,训练得到制导控制智能体,智能体根据导弹观测量生成舵偏角指令。通过进行大量的数值模拟,验证了提出的制导控制一体化算法的有效性和鲁棒性。 相似文献
2.
针对多无人机任务决策方法研究中传统优化算法难以在短时间内得到期望结果的问题,基于深度强化学习提出一种无人机多智能体深度确定性策略梯度(MADDPG)算法,通过允许无人机在学习时使用全局信息,在应用决策的时候只使用局部信息的方法,从网络结构、状态空间、动作空间和奖励函数设计了MADDPG算法的模型结构。最后通过仿真实验,并对比深度确定性策略梯度(DDPG)算法,验证了本文提出的MADDPG算法在保证精度的基础上,学习速度大幅度提高,弥补了传统强化学习算法在多智能体领域的不足。 相似文献
3.
4.
5.
6.
针对大气层内高速机动目标的拦截问题,提出了一种基于双延迟深度确定性策略梯度(TD3)算法的深度强化学习制导律,它直接将交战状态信息映射为拦截弹的指令加速度,是一种端到端、无模型的制导策略。首先,将攻防双方的交战运动学模型描述为适用于深度强化学习算法的马尔科夫决策过程,之后通过合理地设计算法训练所需的交战场景、动作空间、状态空间和网络结构,并引入奖励函数整形和状态随机初始化,构建了完整的深度强化学习制导算法。仿真结果表明:与比例导引和增强比例导引两种方案相比,深度强化学习制导策略在脱靶量更小的同时能够降低对中制导精度的要求;具有良好的鲁棒性和泛化能力,并且计算负担较小,具备在弹载计算机上运行的条件。 相似文献
7.
针对目标特性未知的在轨操作环境,研究了典型空间操作机械臂的路径规划策略。采用Sarsa(λ)强化学习方法实现目标跟踪及避障的自主路径规划与智能决策,该方法将机械臂系统的每节臂视为一个决策智能体,通过感知由目标偏差和障碍距离程度组成的二维状态,设计符合人工经验的拟合奖赏函数,进行各臂转动动作的强化训练,最终形成各智能体的状态-动作值函数表,即可作为机械臂在线路径规划的决策依据。将本方法应用于多自由度空间机械臂路径规划任务,仿真结果表明新算法能在有限训练次数内实现对移动目标的稳定跟踪与避障,同时各智能体通过学习所得的状态-动作值函数表,具备较强的后期在线自主调整能力,从而验证了算法较强的鲁棒性和智能性。 相似文献
8.
针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输出结构进行设计,并引入具有记忆功能的长短期记忆网络(LSTM),根据航天器轨道运动在时间、空间连续的属性,补偿位置、速度测量信息的非完备性。然后采用近端策略优化(PPO)算法开展红蓝左右互搏式学习训练。最后通过三组对比训练实验,验证了所提出的方法在信息非完备约束下能够有效增强学习训练过程的稳定性,并提升任务完成率和降低燃料消耗。 相似文献
9.
利用强化学习技术,本文提出了一种超参数自适应的燃料最优地球同步轨道(GEO)航天器交会变轨策略优化方法。首先,建立了GEO航天器交会Lambert变轨模型。以变轨时刻为决策变量、燃料消耗为适应度函数,使用改进式综合学习粒子群算法(ICLPSO)作为变轨策略优化的基础方法。其次,考虑到求解的最优性和快速性,重新设计了以粒子群算法(PSO)优化结果为参考基线的奖励函数。使用一族典型GEO航天器交会工况训练深度确定性策略梯度神经网络(DDPG)。将DDPG与ICLPSO组合为强化学习粒子群算法(RLPSO),从而实现算法超参数根据实时迭代收敛情况的自适应动态调整。最后,仿真结果表明与PSO、综合学习粒子群算法(CLPSO)相比,RLPSO在较少迭代后即可给出适应度较高的规划结果,减轻了迭代过程中的计算资源消耗。 相似文献
10.
11.
12.
13.
深度学习为遥感领域诸多应用提供了重要的技术支撑,光学遥感图像的舰船目标检测对国防侦察和预警具有重要意义。真实场景中的舰船往往呈不同方向任意排列,且小目标的占比大,经典的深度学习目标检测算法在这种复杂条件下精度低、易漏检。为此,本文设计了基于注意力机制特征重建网络的舰船目标检测算法。首先,通过引入注意力机制对多尺度特征融合网络模型进行训练,以高召回率产生水平锚框;然后,旋转锚框以缓解密集排列目标引起的噪声问题,并利用特征重建模块来缓解特征不对齐的问题,实现模型精炼。在HRSC2016和DOTA数据集上的测试结果表明:舰船目标检测平均精度分别达到90.20和87.52,相比经典的深度学习目标检测算法得到了有效提升,并在模拟星载嵌入式智能图像处理平台上验证了算法在轨应用的可行性。 相似文献
14.
地物分类是PolSAR(极化合成孔径雷达)的重要应用方向。传统算法需要基于特定数据人工选取特征和设计分类器,而深度学习算法能够自行从海量数据中提取层次化特征。在深度学习算法总结的基础上,结合深度学习和PolSAR大数据,提出了一种高效率、高精度的通用分类器设计方法。使用人工标记的数据训练CNN(深度卷积网络),自动化地进行特征学习和提取,并实现高精度的地物自动分类。在具有不同分辨率的机载和星载PolSAR数据上对通用分类器进行测试,都能快速、准确地分类。研究成果可快速将PolSAR数据转译为更直观的地物分类结果,对海量数据,特别是GF-3卫星PolSAR图像的利用有一定的辅助价值。 相似文献
15.
多智能体系统在许多实际领域中得到了广泛应用,包括机器人技术、分布式控制和多人游戏等。这些领域中的许多复杂任务无法通过预定义的智能体行为来解决,而基于通信的多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)技术是应对这些挑战的有效方法之一。该领域存在2个核心问题:1)如何建立有效的多智能体通信机制,从而提升多智能体系统的整体性能;2)在带宽受限的场景下,如何设计高效的通信调度方案从而压缩通信过程中冗余信息。本文首先对处理这两个核心问题的文献进行了概述并重点介绍具有代表性的一些工作,接着说明其在航天领域的应用前景,最后进行总结。 相似文献
16.
17.
为提高导弹在攻击角度约束下对目标的打击效能,提出了一种基于深度确定性策略梯度算法的分布式强化学习制导策略。为了最大限度地减小攻击角度误差,设计了一种新的奖励函数,使导弹在满足视场角约束的同时,视线角向期望值收敛。此外,为了增强强化学习模型的泛化能力,提出了一种分布式探索策略,提高了模型训练过程中对环境的探索效率。仿真结果验证了所提出的分布式强化学习制导方法能够在固定攻击角度约束下实现对目标的精准打击。与传统制导律相比,所提制导方法的攻击角度误差更小,收敛速度更快。 相似文献
18.
19.
20.
本文分析了火箭在飞行过程中的强电磁脉冲(EMP)环境,建立了箭上敏感设备受强电磁脉冲干扰的优化设计模型,包括传导干扰及辐射干扰两种设计模型。针对起飞质量对火箭总体参数设计的制约问题,以最小质量增量为目标函数,采用模拟退火(SA)算法,对箭上典型电气系统抗强电磁脉冲防护进行优化设计研究,为箭上敏感设备抗强电磁脉冲指标与质量增量提供了平衡选取方法。优化结果表明,火箭在飞行过程中典型电气系统的抗强电磁脉冲性能指标达到要求的同时,实现了火箭质量增量最小的目标。 相似文献