首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
现有的路径规划算法对路径规划过程中的路径安全性问题考虑较少,并且传统的近端策略优化(PPO)算法存在一定的方差适应性问题。为解决这些问题,提出一种融合进化策略思想和安全奖励函数的安全近端策略优化(Safe-PPO)算法,所提算法以安全优先进行路径规划。采用协方差自适应调整的进化策略(CMA-ES)的思想对PPO算法进行改进,并引入危险系数与动作因子来评估路径的安全性。使用二维栅格地图进行仿真实验,采用传统的PPO算法和Safe-PPO算法进行对比;采用六足机器人在搭建的场景中进行实物实验。仿真实验结果表明:所提算法在安全优先导向的路径规划方面具有合理性与可行性:在训练时Safe-PPO算法相比传统的PPO算法收敛速度提升了18%,获得的奖励提升了5.3%;在测试时采用融合危险系数与动作因子的方案能使机器人学会选择更加安全的道路而非直观上最快速的道路。实物实验结果表明:机器人可以在现实环境中选择更加安全的路径到达目标点。  相似文献   

2.
针对无人机编队中控制器设计需要基于模型信息,以及无人机智能化程度低等问题,采用深度强化学习解决编队控制问题。针对编队控制问题设计对应强化学习要素,并设计基于深度强化学习对偶双重深度Q网络(D3QN)算法的编队控制器,同时提出一种优先选择策略与多层动作库结合的方法,加快算法收敛速度并使僚机最终能够保持到期望距离。通过仿真将设计的控制器与PID控制器、Backstepping控制器对比,验证D3QN控制器的有效性。仿真结果表明:该控制器可应用于无人机编队,提高僚机智能化程度,自主学习保持到期望距离,且控制器设计无需模型精确信息,为无人机编队智能化控制提供了依据与参考。  相似文献   

3.
为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优先度与TD误差构建的样本混合优先度的离散度计算样本采样概率,进一步提出基于改进优先经验回放方法的柔性动作评价算法,提高模型学习效率.仿真实验结果验证了提出的改进柔性动作评价算法在各个参数配合下的有效性及改进优先经验回放方法在连续控制任务中模型学习效率的优越性.  相似文献   

4.
针对大规模卫星高精度编队控制问题,提出了一种基于吸引法则的深度确定性策略梯度控制方法(attraction-based deep deterministic policy gradient, ADDPG)。首先阐述了超立方体拓扑编队拓扑构型特性,建立了卫星编队动力学模型,设计了超立方体卫星编队虚拟中心用于衡量编队整体飞行状态。为解决无模型深度强化学习的探索和扩展平衡问题,设计了ε-imitation动作选择策略方法,最终提出了基于ADDPG的卫星编队控制策略。算法不依赖于环境模型,通过充分利用已有信息,可以降低学习模型初期探索过程中的盲目试错。仿真结果表明ADDPG策略以较少的能量消耗达到更高的精度,相比知名算法在加快编队收敛速度的同时,误差减少5%以上,能量消耗减少7%以上,验证了算法的有效性。  相似文献   

5.
足式机器人步态控制是机器人研究领域的难点问题,应用强化学习让机器人自主学习策略提供了一种很好的解决思路.基于ROS机器人操作系统搭建了四足机器人仿真平台,将近端策略优化算法用于四足机器人步态控制,并与其他深度强化学习算法进行了对比分析.仿真实验结果表明,近端策略优化算法在实际应用中具有更好的训练效果.  相似文献   

6.
针对无人机地面动态目标跟踪问题,建立了远距离自主引导与近距离伴飞避障2个阶段的马尔可夫决策过程模型。在此基础上,提出了一种改进的近端策略优化(PPO)算法。考虑到无人机接收到的数据具有时序性且环境状态存在上下文关联,所提算法采用长短期记忆(LSTM)网络,通过无人机与目标的实时位置关系等状态信息来计算奖励值,更新网络参数,并进行自适应优化迭代。通过基于ROS系统的仿真测试平台进行试验,结果表明:所提算法安全有效地实现了侦察任务全过程的自主机动,与传统的PPO算法相比,LSTM的引入缩短了模型训练时间,跟踪与避障的效率明显提高,进一步加强了算法的鲁棒性、准确性和实时性。  相似文献   

7.
由于距离地球较远、测控延时误差较大、飞行环境十分复杂且难以提前预测,行星软着陆的自主制导技术目前存在水平位置估计困难、导航参考信息匮乏、复杂地形着陆困难等挑战。针对行星软着陆存在的困难和挑战,提出了基于引导策略搜索算法的有模型强化学习制导方法,实现了着陆器在初始状态受到扰动时,无需重新规划,仍能在满足约束条件的情况下降落在指定位置。该方法将迭代线性二次调节器作为控制器,产生初始轨迹;其次,使用多层神经网络拟合制导策略;最后,利用控制器监督策略学习,进而收敛产生可行策略。针对行星表面软着陆的仿真验证结果显示该算法仅通过几次循环,即可以实现初始状态变化的快速软着陆。一方面表明了基于有模型强化学习的数据高效利用率,另一方面也证明了强化学习方法在深空探测领域中具有广阔的应用前景。  相似文献   

8.
为解决数量不定的同构水面无人艇(USV)集群以期望队形协同集结的问题,提出一种基于多智能体强化学习(MARL)的分布式集群集结控制方法。针对USV通信感知能力约束,建立集群的动态交互图,通过引入二维网格状态特征编码的方法,构建维度不变的智能体观测空间;采用集中式训练和分布式执行的多智能体近端策略优化(MAPPO)强化学习架构,分别设计策略网络和价值网络的状态空间和动作空间,定义收益函数;构建编队集结仿真环境,经过训练,所提方法能有效收敛。仿真结果表明:所提方法在不同期望队形、不同集群数量和部分智能体失效等场景中,均能成功实现快速集结,其灵活性和鲁棒性得到验证。  相似文献   

9.
针对大面积图像修复缺失严重时,需要完整且高质量训练样本的问题,提出了一种将残缺或含噪图像样本作为训练集的双生成器深度卷积生成对抗网络(DGDCGAN)模型。构建两个生成器和一个鉴别器以解决单一生成器收敛慢的问题,用残缺图像样本作为训练集,通过交叉计算、搜索损失区域类似的图像信息作为训练生成模型的样本,收敛速度更快。鉴别器损失函数改进为输出的Wasserstein距离,使用自适应估计算法优化生成器损失函数和鉴别器损失函数的模型参数,最小化两两图像之间的总距离差,使用鉴别模型和修复图像总距离变化均方差最小化两个指标优化修复结果。在4个公开数据集上进行主客观实验,结果表明:所提方法能使用残缺图像样本作为训练集,有效实现大面积失真图像的修复,且收敛速度和修复效果优于现有图像修复方法。   相似文献   

10.
针对航天器遭遇空间非合作目标异常接近的场景,考虑航天器软硬件资源的约束,提出一种面向空间异常接近规避过程的航天器有限资源调度方法,以特定任务下的空间态势信息作为输入,输出动态变化的航天器资源配置.首先,建立威胁规避场景的动力学模型和航天器有限软硬件资源模型,分析威胁规避过程中的信息流;在此基础上,引入“精英保留”和“劣种淘汰”策略设计基于遗传算法的航天器资源调度方法,以加快遗传算法收敛速率.仿真结果表明,相比随机调度策略,本文所提方法寻找的调度策略有效提升了资源约束条件下对非合作目标的定轨收敛速率,更快到达预定位置,同时节约了速度增量消耗.  相似文献   

11.
  总被引:2,自引:2,他引:0  
针对室内无卫星定位下的无人机自主导航问题,提出了一种融合惯导、光流和视觉里程计的组合导航方法。在速度估计上,采用基于ORB特征的光流法,该方法可以实时地估计出无人机的三轴线速度信息。方法采用基于特征点的稀疏光流,对金字塔Lucas-Kanade光流法进行了改进,采用前后双向追踪和随机采样一致的方法提高特征点追踪精度。在位置估计上,采用视觉/惯导融合的视觉里程计,以人工图标法为主,融合视觉光流信息和惯导数据实现无人机定位。通过与运动捕捉系统的定位信息、Guidance和PX4Flow导航模块的测速信息进行对比,以及实际的飞行测试,验证本文方法的可行性。  相似文献   

12.
发射系下的SINS/CNS/GNSS组合导航UKF滤波算法   总被引:1,自引:0,他引:1  
弹载系统的组合导航系统模型常建立在发射惯性坐标系下,且捷联惯性/天文导航/卫星导航(SINS/CNS/GNSS)是一种目前研究较多的组合模式。该组合导航系统的状态方程具有强非线性的特点,常用的滤波方法为扩展卡尔曼滤波(EKF)。为了提高组合导航系统的精度及可靠性,对该组合导航系统的无迹卡尔曼滤波(UKF)模型进行了设计,直接将姿态、位置与速度参数作为状态的一部分,利用CNS及GNSS提供的姿态与位置构成量测方程,并详细给出了姿态样本点的生成、均值及方差的生成过程。仿真结果表明,相对于EKF算法,采用UKF算法后各导航参数的精度可提高约20%~30%,并且系统的实时性也可以得到保证。  相似文献   

13.
在航天器相对导航过程中,相对距离测量信息容易受到干扰,测量误差有较大的不确定性,通常基于单一模型的滤波算法无法对噪声进行辨识,很难获得精确的导航结果。针对应用Clohessy-Wiltshire(C-W)方程受到圆轨道假设的限制问题,研究了建立在惯性坐标系下的近距离相对运动方程(Lawden方程),建立了基于这两个方程的模型集。根据导航系统测量敏感器的特点,设计基于Rodrigues参数及无迹卡尔曼滤波(UKF)的交互式多模型(IMM)视觉相对位姿动态估计算法(IMM-UKF),在保证计算效率的前提下,确保相对轨道姿态确定的稳定性和精确性。数值仿真验证了算法的有效性和先进性。  相似文献   

14.
为了解决初级教练机低成本组合导航仪中全球定位系统(GPS, Global Positioning System)信息更新频率过低,导致传统组合导航算法失效的问题,在对惯性器件进行建模的基础上,提出了一种基于运动学非线性模型的组合导航算法.该算法选取载体的姿态、速度和位移量作为状态量,以GPS、磁强计和高度计的测量值作为观测量,建立组合导航系统模型,利用卡尔曼滤波对线性化后的系统模型进行数据融合.通过静态试验和动态跑车试验,表明该组合导航算法能够使姿态误差均值控制在0.12°以内,速度误差均值不大于0.03m/s,位移量误差均值不大于3.94m,精度能够满足初级教练机的应用需要.  相似文献   

15.
针对惯性行人导航中航向角发散致使导航精度降低的问题,提出了一种基于零速修正与姿态自观测的惯性行人导航算法。通过四条件零速检测算法对行走步态中的零速区间进行检测。在检测得到的零速区间内,利用零速修正算法原理构造速度误差的观测量;利用零速区间内行人脚部与地面保持静止、只受到重力加速度及姿态角不变的特性,构造姿态角误差的观测量。应用卡尔曼滤波对零速区间内的姿态角、速度及位置的误差进行估计。利用得到的误差状态估计结果对行人导航进行误差校正,提高惯性行人导航的精度。实验表明:小范围矩形路径中,所提算法的导航轨迹相对误差平均值仅占总路程的0.98%,比零速修正算法减小了78.11%;导航轨迹误差标准差仅为0.14 m,比零速修正算法减小了88.62%;400 m标准操场闭合路径中解算终点相对位置误差仅为1.18%。解算轨迹与实际轨迹匹配度较高,具有良好的应用价值。   相似文献   

16.
严格回归轨道的管道导航方法研究   总被引:1,自引:0,他引:1  
分析了作为参考轨道的严格回归轨道与卫星在轨运行状态的相对运动关系,提出近地遥感卫星的管道导航方法。由于参考轨道的设计只考虑高精度的地球非球形摄动,与在轨卫星的动力学环境存在差别,这导致两者之间存在切航向漂移。基于高精度的轨道动力学模型和位置确定方法,设计了卫星与参考轨道采样点的沿航向对齐算法,从而获取了卫星相对参考轨道采样点的相位时间偏差和卫星在参考轨道编队坐标系切航向平面内的相对运动轨迹,进而引入椭圆的“最小二乘适配法”获取相对运动轨迹的特征量。所研究的管道导航方法可应用于基于GNSS测量数据的卫星自主轨迹保持。  相似文献   

17.
基于太阳震荡的时间延迟是一种新型天文导航量测量,可以提供探测器相对反射天体的距离信息,与星光角距量测量结合,可以提高导航性能。然而,星光角距量测模型与时间延迟量测模型均含有火卫一相对火星的位置矢量,火卫一的星历误差将影响导航精度。针对这一问题,提出了一种基于在线估计的天文测角/时间延迟量测组合导航方法,建立了包含火卫一位置及速度的状态模型,利用星光角距及时间延迟量测量同时对火卫一的位置和速度进行在线估计,仿真结果表明,提出的方法可以有效抑制火卫一星历误差对组合导航精度的影响,为探测器提供高精度的自主导航信息。  相似文献   

18.
基于太阳震荡的时间延迟是一种新型天文导航量测量,可以提供探测器相对反射天体的距离信息,与星光角距量测量结合,可以提高导航性能。然而,星光角距量测模型与时间延迟量测模型均含有火卫一相对火星的位置矢量,火卫一的星历误差将影响导航精度。针对这一问题,提出了一种基于在线估计的天文测角/时间延迟量测组合导航方法,建立了包含火卫一位置及速度的状态模型,利用星光角距及时间延迟量测量同时对火卫一的位置和速度进行在线估计,仿真结果表明,提出的方法可以有效抑制火卫一星历误差对组合导航精度的影响,为探测器提供高精度的自主导航信息。  相似文献   

19.
针对航天器自主导航方法不适合高超声速临近空间飞行器的问题, 研究了基于非开普勒轨道的高超声速临近空间飞行器自主天文导航方案. 论述了基于非开普勒轨道的自主天文导航机理, 通过对高超声速临近空间飞行器受力分析, 建立了动力学方程; 利用矢量倒数法则推导出空间运动方程; 设计了基于非开普勒轨道的状态模型和基于星光折射间接敏感地平的观测模型, 采用卡尔曼滤波进行了仿真验证. 仿真结果表明, 基于非开普勒轨道的高超声速临近空间飞行器自主天文导航可达到较高的位置和速度精度.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号