首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 765 毫秒
1.
为研究基于深度强化学习的平流层浮空器高度控制问题。建立平流层浮空器动力学模型,提出一种基于深度Q网络(DQN)算法的平流层浮空器高度控制方法,以平流层浮空器当前速度、位置、高度差作为智能体的观察状态,副气囊鼓风机开合时间作为智能体的输出动作,平流层浮空器非线性动力学模型与扰动风场作为智能体的学习环境。所提方法将平流层浮空器的高度控制问题转换为未知转移概率下连续状态、连续动作的强化学习过程,兼顾随机风场扰动与速度变化约束,实现稳定的变高度控制。仿真结果表明:考虑风场环境对浮空器影响下,DQN算法控制器可以很好的实现变高度的跟踪控制,最大稳态误差约为10 m,与传统比例积分微分(PID)控制器对比,其控制效果和鲁棒性更优。  相似文献   

2.
为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优先度与TD误差构建的样本混合优先度的离散度计算样本采样概率,进一步提出基于改进优先经验回放方法的柔性动作评价算法,提高模型学习效率.仿真实验结果验证了提出的改进柔性动作评价算法在各个参数配合下的有效性及改进优先经验回放方法在连续控制任务中模型学习效率的优越性.  相似文献   

3.
针对巨型星座的星地测控链路规划问题,提出了一种基于深度强化学习的智能规划调度算法。该方法考虑了卫星对于测控站的资源竞争关系和连接关系,设计了环境状态,决策智能体通过感知卫星状态,结合动作选择策略,生成卫星对于测控站的分配方案,并根据反馈的奖励值进行策略的迭代优化。将本算法应用于巨型星座系统的星地测控链路规划任务,仿真结果表明所提出的智能算法可以将测控站天线利用率提升到98%以上,同时有效地降低了天线的切换次数。另外,训练好的模型可以根据未来时刻的星地可视窗口,在30s内快速生成星地测控链路规划方案。  相似文献   

4.
航天器规避机动过程中面临多种复杂约束条件,传统基于数值优化的动作规划方法在处理相应模型和约束条件时存在初值敏感、计算时间较长等问题,难以对近距离轨道威胁做出及时反应.针对该问题,本文提出一种基于深度强化学习的航天器多约束规避动作规划方法.建立航天器六自由度非线性动力学模型以及相应姿轨机动约束条件;建立基于双延迟深度确定性策略梯度(TD3)的动作规划方法,通过TD3训练得到的神经网络在线生成满足多种约束条件的规避机动动作;构造与规划方法相适配的深度强化学习规范化训练环境,确保学习训练过程中智能体和环境的有效交互.仿真结果表明,所提方法能在预期交会时间仅数十秒的情况下快速实时生成规避动作,规划周期小于9 ms,远低于作为对比项的高斯伪谱法.  相似文献   

5.
    
多智能体一致性协调控制的最终收敛状态受限于通信拓扑结构与边的权值,而收敛状态的不同进一步影响多智能体趋同的速度.为实现拓扑结构与协调收敛状态解耦,保证最短时间实现一致性,本文设计一种输入受限线性多智能体分布式协调控制策略.首先基于Helly定理证明了n个输入受限线性多智能体系统在d(nd)维协调空间上的最短时间一致性协调状态和收敛时间唯一存在,并取决于其中至多d+1个智能体.当找到该d+1个起决定作用的智能体后,即可得到所有智能体的最短时间一致性状态.根据此定理,设计一种新的分布式协调算法使得各个智能体知道起决定作用的智能体,进而计算得到协调收敛状态与收敛时间,随后各个智能体独立设计含终端时间和终端状态约束的局部最优控制律,保证最短时间一致性实现.最后在二阶线性多智能体系统上进行仿真验证.仿真结果验证了分布式算法的可行性,并且当协调状态维度远小于智能体数量时,计算量明显减少,计算速度显著增加.  相似文献   

6.
针对无人机编队中控制器设计需要基于模型信息,以及无人机智能化程度低等问题,采用深度强化学习解决编队控制问题。针对编队控制问题设计对应强化学习要素,并设计基于深度强化学习对偶双重深度Q网络(D3QN)算法的编队控制器,同时提出一种优先选择策略与多层动作库结合的方法,加快算法收敛速度并使僚机最终能够保持到期望距离。通过仿真将设计的控制器与PID控制器、Backstepping控制器对比,验证D3QN控制器的有效性。仿真结果表明:该控制器可应用于无人机编队,提高僚机智能化程度,自主学习保持到期望距离,且控制器设计无需模型精确信息,为无人机编队智能化控制提供了依据与参考。  相似文献   

7.
基于强化学习的航空兵认知行为模型   总被引:1,自引:1,他引:0  
航空兵的认知行为模型为仿真航空兵的空战决策提供支持,通过强化学习积累战术决策经验.在虚拟战场环境中,作战态势通过多个属性进行描述,这使得强化学习过程将面临一个高维度的问题空间.传统的空间离散化方法处理高维空间时将对计算资源和存储资源产生极大需求,因此不可用.通过构造一个基于高斯径向基函数的拟合网络解决了这个问题,大大减少了对资源的需求以及强化学习周期,并最终产生了合理的机动策略.模型的有效性和自适应性通过一对一的空战仿真进行了验证,产生的交战轨迹与人类飞行员产生的交战轨迹类似.  相似文献   

8.
研究了不确定通讯网络下的异构多智能体系统的鲁棒编队控制问题,也就是要在智能体间信息交互过程中产生的传输误差和噪声情况下实现编队的控制目标.把网络中的信道构建成一个统一的附加一个确定或者随机不确定性的传递函数.对于确定和随机这两种情况,首先对每个智能体分别设计了分布式的补偿器并得出了实现补偿器内部状态达到编队控制的充分条件.随后,对每个智能体给出了一个基于观测器的控制律以实现智能体的状态跟踪到对应补偿器的状态,从而实现智能体状态的编队目标.最后,给出了一个仿真实例来验证的控制律的有效性.  相似文献   

9.
未来作战的发展方向是由多智能体系统构成的无人集群系统通过智能体之间自主协同来完成作战任务。由于每个智能体自主采取行为和改变状态,增加了智能群体行为策略训练的不稳定性。通过先验约束条件和智能体间的同构特性增强奖励信号的实时性,提高训练效率和学习的稳定性。采用动作空间边界碰撞惩罚、智能体间时空距离约束满足程度奖励;通过智能体在群体中的关系特性,增加智能体之间经验共享,进一步优化学习效率。在实验中,将先验增强的奖励机制和经验共享应用到多智能体深度确定性策略梯度(MADDPG)算法中验证其有效性。结果表明,学习收敛性和稳定性有大幅提高,从而提升了无人集群系统行为学习效率。   相似文献   

10.
随着无人系统与智能技术的发展,作为无人系统的典型应用之一的无人机集群,在民用与军事领域的应用前景越来越广阔,当集群规模较大时,传统的组网通信方式会受到带宽、干扰等限制,极大影响无人机集群的协同作战效能。基于此,提出一种弱信息交互条件下的无人机集群决策模型(WIIUSM),不依赖无人机之间的双向数据交互,仅依靠单向视觉感知的方式实现期望的集群行为。建立了弱信息交互的无人机集群模型,采用改进后的遗传算法(IGA)作为优化方法对决策模型进行优化。以区域搜索任务为例进行仿真测试,将所提方法与基于顶层规划的蛇形方法进行对比,证明了所提方法在搜索效率层面的有效性;测试了不同比例无人机失效条件下搜索效率的下降程度,与蛇形方法进行对比,证明所提方法具有一定的鲁棒性。  相似文献   

11.
针对卫星编队中单颗小卫星欠配置、测量信息不全和故障类型数据少等问题,提出一种基于联邦学习的卫星编队故障诊断方法.基于故障影响下的卫星动力学模型,利用Unity3D引擎搭建虚拟仿真环境,为后续卫星故障注入及故障数据产生奠定基础.考虑单个小卫星测量配置不全的问题,采用双向协调网络(BicNet)构建卫星本地故障诊断模型,借鉴邻居卫星的“远端”敏感器信息,实现本地卫星故障诊断.采用联邦学习框架进行分布式训练,每颗卫星上传本地模型参数进行协同建模,在不增加通信压力的情况下,整合整个星群的故障特征,提高星群对不同故障类型的故障诊断能力.所设计的编队故障诊断算法在编队卫星数量变化时也无需重新训练诊断网络,满足“即插即用”的工程需求.通过仿真实例验证,在测试集上精度达到99%,表明该方法有较高的准确性.  相似文献   

12.
为解决强化学习算法在自主导航任务中动作输出不连续、训练收敛困难等问题,提出了一种基于近似策略优化(PPO)算法的移动平台自主导航方法。在PPO算法的基础上设计了基于正态分布的动作策略函数,解决了移动平台整车线速度和横摆角速度的输出动作连续性问题。设计了一种改进的人工势场算法作为自身位置评价,有效提高强化学习模型在自主导航场景中的收敛速度。针对导航场景设计了模型的网络框架和奖励函数,并在Gazebo仿真环境中进行模型训练,结果表明,引入自身位置评价的模型收敛速度明显提高。将收敛模型移植入真实环境中,验证了所提方法的有效性。  相似文献   

13.
由于距离地球较远、测控延时误差较大、飞行环境十分复杂且难以提前预测,行星软着陆的自主制导技术目前存在水平位置估计困难、导航参考信息匮乏、复杂地形着陆困难等挑战。针对行星软着陆存在的困难和挑战,提出了基于引导策略搜索算法的有模型强化学习制导方法,实现了着陆器在初始状态受到扰动时,无需重新规划,仍能在满足约束条件的情况下降落在指定位置。该方法将迭代线性二次调节器作为控制器,产生初始轨迹;其次,使用多层神经网络拟合制导策略;最后,利用控制器监督策略学习,进而收敛产生可行策略。针对行星表面软着陆的仿真验证结果显示该算法仅通过几次循环,即可以实现初始状态变化的快速软着陆。一方面表明了基于有模型强化学习的数据高效利用率,另一方面也证明了强化学习方法在深空探测领域中具有广阔的应用前景。  相似文献   

14.
为解决多机编队目标跟踪过程中存在的机间通信和控制更新频繁的问题,提出了一种具有事件触发机制的多机编队目标跟踪控制算法。首先,给出了一种具有事件触发策略的编队队形描述与目标跟踪一体化算法,简化了算法设计的复杂度,并使触发机制的工作过程更加直观;其次,给出了分布式目标跟踪控制律,并仅利用状态估计信息设计了事件触发函数,使无人机间通信与控制更新问题转换为判别触发函数的取值问题,同时设计了最小触发间隔系数,避免了可能存在的"Zeno行为";最后,以编队不同的运动模式对算法进行了仿真验证。研究结果表明:所提算法能使无人机编队在机间通信与控制更新次数明显减少的情况下跟踪上目标。   相似文献   

15.
针对无人机(UAV)协同围捕问题,提出一种基于群体意志统一的围捕策略。受人类在协作任务中的认知机理启发,引入“群体意志”定义无人机的协作认知,并构建双回路认知模型,借助图卷积网络对围捕无人机获取的局部态势进行融合认知,有效减轻无人机系统的计算负载。依靠变分推断原理和生成式自动编码器对围捕无人机进行群体意志趋同学习,依据Apollonius圆实现协同围捕,使无人机集群涌现出更加智能化的围捕效果。通过对比仿真验证了所提策略的有效性和智能性。  相似文献   

16.
有向通信拓扑和时延条件下的无人机集群时变编队控制   总被引:1,自引:1,他引:0  
针对无人机(UAV)集群在有向通信拓扑和存在通信时延条件下的时变编队控制问题进行了研究。建立了无人机集群二阶离散时间系统模型,基于无人机自身实时信息和相邻无人机带通信时延的状态信息,设计了分布式编队控制协议。通过理论分析,得到了无人机集群能够实现时变编队的充要条件,给出了可行的期望编队的表达式。在集群通信拓扑有生成树的条件下,分析了控制协议中待定参数和状态更新周期满足的耦合约束条件,并给出了参数设计的流程。仿真结果表明:即使在较大的通信时延下,所设计的控制协议也能实现无人机集群时变编队控制,验证了理论分析的正确性和有效性。   相似文献   

17.
针对输电线路金具缺陷样本不足和缺陷目标形态多样化,仅仅利用深度学习模型导致金具缺陷分类准确率较低的问题,提出了一种结合深度网络和逻辑回归模型的因果分类方法。首先,通过样本扩充方法获得数量丰富化和角度多样化的数据集;然后,基于微调后的VGG16模型提取深度特征并进行特征处理,以构建符合因果关系学习的输入特征集;最后,通过全局混杂平衡进行金具缺陷特征与标签之间的因果关系学习,构建符合金具特点的因果逻辑回归模型,完成金具缺陷分类。为了证明所提方法的有效性,利用无人机实际采集的4类金具缺陷图片分别进行了实验,所使用的训练样本和测试样本数量较原始数据集提升了5倍左右。实验结果表明:所提方法可以实现对输电线路金具缺陷的精准分类,其中,防震锤相交和变形分类准确率分别达到了0.929 9和0.911 8,屏蔽环锈蚀和均压环损坏分类准确率分别达到了0.956 7和0.966 9。   相似文献   

18.
航空机群保障涉及要素广、策略多、交互性强,仿真分析方法是开展飞机保障决策与评估研究的热点和难点。提出一种机群保障仿真评估方法,建立多智能体(Agent)功能类型与交互关系模型;对多Agent结构进行定义,并建立模型;以五型飞机构成的航空机群为仿真对象,以任务成功率为保障指标进行案例验证与仿真计算分析。结果表明:各型飞机平均故障间隔时间(MTBF)、设备故障平均修复时间(MTTR)对任务成功率的影响总体趋势相似,随着MTBF的增加任务成功率提升,随着MTTR的增加任务成功率降低。所提方法能够为航空机群维修保障智能决策提供一种可行、有效的方法手段,支撑基于模型的智能决策优化实现。  相似文献   

19.
研究了具有方向约束的多智能体系统的反一致性问题.首先假设系统中智能体在一维空间服从单向运动.针对一阶积分器模型,给出了一类反一致性协议的设计方法,系统中所有智能体仅仅通过观测其邻近智能体位置状态,自主分布式的决策和协调控制输入,实现了系统中智能体最终静止并在空间中分散,智能体最终状态满足反一致性要求.针对二阶积分器模型,设计了一类包含自身速度测量的反一致性协议,在设计的控制输入下,实现了二阶多智能体系统避碰并最终达到反一致性状态.最后,将系统从一维空间推广到N维空间.假设多智能体系统在N维空间的第k个坐标轴方向受方向约束,针对一阶积分器模型和二阶积分器模型,给出了一类反一致性协议设计方法.在设计的控制输入下,实现了系统在N维空间最终达到反一致状态.最后,采用Python语言,利用数值仿真例子校验了理论结果的正确性.  相似文献   

20.
基于强化学习的避扰通信,由于需要不断地与环境交互从中学习到最优决策,其决策网络的训练时间受环境反馈速率的约束,通常耗时严重。针对这一问题,提出了一种离线式训练方法。构建出一种频谱虚拟环境生成器,可以快速生成大量的逼真合成频谱瀑布图,用于避扰通信决策网络训练。由于所提方法脱离真实环境反馈,形成离线式训练,进而显著提高模型训练效率。实验结果表明:与实时在线训练方法比较,所提离线式训练方法的训练时间可以减少50%以上。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号