共查询到20条相似文献,搜索用时 62 毫秒
1.
针对目标特性未知的在轨操作环境,研究了典型空间操作机械臂的路径规划策略。采用Sarsa(λ)强化学习方法实现目标跟踪及避障的自主路径规划与智能决策,该方法将机械臂系统的每节臂视为一个决策智能体,通过感知由目标偏差和障碍距离程度组成的二维状态,设计符合人工经验的拟合奖赏函数,进行各臂转动动作的强化训练,最终形成各智能体的状态-动作值函数表,即可作为机械臂在线路径规划的决策依据。将本方法应用于多自由度空间机械臂路径规划任务,仿真结果表明新算法能在有限训练次数内实现对移动目标的稳定跟踪与避障,同时各智能体通过学习所得的状态-动作值函数表,具备较强的后期在线自主调整能力,从而验证了算法较强的鲁棒性和智能性。 相似文献
2.
针对大气层内高速机动目标的拦截问题,提出了一种基于双延迟深度确定性策略梯度(TD3)算法的深度强化学习制导律,它直接将交战状态信息映射为拦截弹的指令加速度,是一种端到端、无模型的制导策略。首先,将攻防双方的交战运动学模型描述为适用于深度强化学习算法的马尔科夫决策过程,之后通过合理地设计算法训练所需的交战场景、动作空间、状态空间和网络结构,并引入奖励函数整形和状态随机初始化,构建了完整的深度强化学习制导算法。仿真结果表明:与比例导引和增强比例导引两种方案相比,深度强化学习制导策略在脱靶量更小的同时能够降低对中制导精度的要求;具有良好的鲁棒性和泛化能力,并且计算负担较小,具备在弹载计算机上运行的条件。 相似文献
3.
为提高导弹在攻击角度约束下对目标的打击效能,提出了一种基于深度确定性策略梯度算法的分布式强化学习制导策略。为了最大限度地减小攻击角度误差,设计了一种新的奖励函数,使导弹在满足视场角约束的同时,视线角向期望值收敛。此外,为了增强强化学习模型的泛化能力,提出了一种分布式探索策略,提高了模型训练过程中对环境的探索效率。仿真结果验证了所提出的分布式强化学习制导方法能够在固定攻击角度约束下实现对目标的精准打击。与传统制导律相比,所提制导方法的攻击角度误差更小,收敛速度更快。 相似文献
4.
针对复杂场景下无人机集群对抗中协同目标分配和突防轨迹规划等多耦合任务的决策问题,提出了一种集群对抗多耦合任务智能决策方法。首先,针对无人机集群对抗中耦合任务多和决策空间大难题,结合集中式和分层式架构的优点,设计了面向多耦合任务的混合式深度强化学习架构,可提升多耦合任务间的协同性和集群对抗效能;其次,针对轨迹规划序贯决策的稀疏奖励难题,设计了基于轨迹构造的一步式动作空间设计方法,可加快策略网络收敛速度;再次,针对强对抗条件下的场景不确定难题,基于无人机集群红蓝对抗仿真平台,设计了基于多随机场景的红蓝博弈训练方法,可增强策略网络的泛化性;最后,通过与传统方法、集中式架构方法和分层式架构方法进行对比,验证了此方法的有效性和先进性。 相似文献
5.
针对多无人机任务决策方法研究中传统优化算法难以在短时间内得到期望结果的问题,基于深度强化学习提出一种无人机多智能体深度确定性策略梯度(MADDPG)算法,通过允许无人机在学习时使用全局信息,在应用决策的时候只使用局部信息的方法,从网络结构、状态空间、动作空间和奖励函数设计了MADDPG算法的模型结构。最后通过仿真实验,并对比深度确定性策略梯度(DDPG)算法,验证了本文提出的MADDPG算法在保证精度的基础上,学习速度大幅度提高,弥补了传统强化学习算法在多智能体领域的不足。 相似文献
6.
小行星俘获(ACR)任务是美国Keck空间研究中心发起的一项深空探测任务。该任务计划选定一颗近地小行星,通过口袋式抓捕系统对其实施抓捕,并于2025年左右将其带回近月空间。文章介绍了ACR任务的内容和系统设计,具体包括:航天器总体构型、抓捕分系统、探测识别分系统和控制与推进分系统;对小行星抓捕的目标探测与识别、旋转匹配、抓捕、消旋、轨道转移等核心操作。基于ACR任务,提出了空间目标俘获技术的需求与应用、抓捕航天器系统设计的启示;基于我国目前的技术研究情况,总结分析了发展空间目标俘获任务所需的关键技术,如大功率柔性太阳翼、长时间大范围轨道机动、目标探测与识别、快速机动、目标抓捕与消旋。 相似文献
7.
8.
针对多臂空间机器人自主目标抓捕任务,首先建立多臂空间机器人的运动模型和其与目标的相对运动模型,采用Kane方法建立多臂空间机器人的动力学模型;其次,研究基于视觉伺服的机械臂在线轨迹规划算法,并引入零反作用机动,消除机械臂运动对平台姿态的扰动;再次,在不使用零反作用机动功能时,分别使用基于角动量前馈补偿的协调控制算法和逆动力学方法设计了协调控制器,在机械臂运动时保持平台姿态和相对目标的位置。最后,开发了基于Matlab的仿真软件MASS(多臂空间机器人仿真),仿真结果校验了上述方法的有效性。 相似文献
9.
10.
11.
提出一种航天器反应式碎片规避动作规划方法,首先以扰动流体动态系统(IFDS)算法作为动作规划的基础算法,通过其中的总和扰动矩阵对航天器的轨道速度矢量进行修正,实现轨道机动规避;然后,建立基于双延迟深度确定性策略梯度(TD3)深度强化学习算法的反应式动作规划方法,通过TD3在线优化IFDS规划参数,实现对碎片群的“状态-动作”最优、快速规避决策。在此基础上,将优先级经验回放和渐进式学习策略引入该方法中,提升训练效率。最后,仿真结果表明,所提方法可使航天器安全规避多发、突发、动态且形状各异的空间碎片群,且具有较好的实时性。 相似文献
12.
针对航天器在轨服务任务中涉及的空间近距离操作需求,提出一种机械臂与服务卫星协同控制方法。首先建立了机械臂和服务卫星组合体动力学模型以及服务卫星和目标卫星相对位姿耦合动力学模型。然后采用全局终端滑模控制设计了机械臂轨迹跟踪控制方法,采用PD控制设计了服务卫星相对位姿耦合控制方法,并将机械臂反作用力和力矩作为前馈补偿叠加到服务卫星控制系统中,实现了两者的协同控制。最后通过数值仿真验证了控制方法的有效性。仿真结果表明,该方法能够满足空间近距离操作任务对机械臂和服务卫星的控制精度、稳定性和误差收敛时间的要求,具有工程实用性。 相似文献
13.
研究了一种基于深度强化学习理论的制导控制一体化算法。不同于传统的制导控制一体化算法和制导控制回路分开设计的方法,基于深度强化学习理论的制导控制一体化算法利用深度学习强化算法生成一个智能体,智能体根据导弹的观测量生成舵偏角控制指令准确拦截目标。首先将制导控制问题转化为一个马尔可夫决策过程,然后提出了一个权衡制导精度、能量损耗和飞行时间的奖励函数,将制导控制问题转化到强化学习问题的框架中。最后采用深度确定性策略梯度算法,求解提出的强化学习问题,训练得到制导控制智能体,智能体根据导弹观测量生成舵偏角指令。通过进行大量的数值模拟,验证了提出的制导控制一体化算法的有效性和鲁棒性。 相似文献
14.
15.
针对大气层外多弹头多诱饵的进攻场景,采用多拦截器全拦截策略,提出了带故障诊断的协同跟踪算法、时间协同中制导律以及消除脱靶量的末制导律。首先,基于最小二乘算法以及误差传播理论,实现了局部信息融合以及测量方程的线性化,简化了非线性跟踪滤波算法的设计;并依托滤波算法,设计了传感器故障诊断算法,以排除其对跟踪效果的影响。然后,基于对拦截器和目标受力的合理简化,给出了相对运动解析解,设计了有限推力下的多拦截器时间协同中制导律以及末制导律,实现对多个目标的同时击毁。仿真结果显示,本文设计的协同跟踪与制导算法,可以有效估计目标的状态并排除故障传感器的干扰,实施对多个目标的时间协同拦截。 相似文献
16.
在充分调研国际空间站机械臂人机系统设计的基础上,结合中国空间站机械臂人机协同作业需求,建立了空间站机械臂“管理-设计-验证”全周期人机设计体系,通过人机项目规划、人机功能分配等管理要素,针对性地开展了空间机械臂人机系统详细设计,最后,从仿真分析、地面验证、在轨验证三大方面对人机系统进行了全要素全流程的验证,结果表明空间站机械臂人机系统设计合理,可应用于后续航天员出舱活动,保障航天员出舱活动安全、高效。研究结果将为空间机械臂人机系统设计与验证提供体系借鉴和工程指导。 相似文献
17.
针对月球科研站任务地月遥操作需求和特点,设计地月准实时遥操作模拟验证系统,对其中的关键技术海量多尺度遥感数据环境感知、空地协同高精度定位、基于混合现实的预测仿真等进行了研究。提出了基于海量多尺度遥感数据的联合处理方法,环境感知数据融合可处理米级至厘米级环境感知结果;设计基于空地多运动平台协同定位的原型软件,空地协同地标约束下,定位精度不低于轨道器影像1个像素;开发了带有力觉反馈的预测仿真验证平台,在2~3 s变时延约束下可在仿真环境下协同演示遥操作过程,真实还原从端的遥操作作业场景,提高遥操作的执行效率和安全性。为地面人员的方案设计、操作手训练、故障处置等提供实时支持,为我国未来实施月球科研站任务筑牢基础。 相似文献
18.
19.
针对行星表面轻量化自主探测任务,基于仿生思想设计了一种仿海胆结构的十二足球形机器人,其具备自主改变构型以贴合复杂地形的能力,可实现无倾覆、高容错的全向运动;基于数据驱动方法,对该机器人设计了一种数据高效的无模型强化学习运动策略,可实现无先验知识的从0到1步态训练以及步态的实物样机快速部署。通过在平面地形和非结构化地形中对其进行仿真实验,验证了经过训练的机器人具备自主运动、适应非结构地形等能力;通过与常用基准策略进行对比,证实了本文提出的运动策略具有训练高效、鲁棒性好的优势;最后通过开发原理样机,开展实物实验验证了仿真环境中所生成的步态在真实物理环境中的动力学可行性。 相似文献