首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 78 毫秒
1.
多智能体对抗系统是多方博弈的复杂系统。近年来,很多研究聚焦于用强化学习解决多智能体对抗博弈问题。文章从多智能体强化学习的角度对智能博弈对抗的算法进行综述。首先,简要介绍了对多智能体强化学习及博弈论;然后,提出多智能体强化学习的 4项关键技术难点,并提出相关解决方法;最后,归纳多智能体强化学习的前沿研究方向,总结了研究热点与存在的挑战。综述为后续的研究打下基础,为使用多智能体强化学习解决博弈对抗问题提供思路。  相似文献   

2.
王冲  李军  景宁  王钧  陈浩 《中国航空学报》2011,24(4):493-505
针对多星协同动态任务规划问题,以往多采用基于启发式的重规划算法,但是由于启发式策略依赖于具体任务,使得优化性受到影响。注意到协同规划的历史信息对后续协同规划的影响,本文提出了一种基于策略迭代的多智能体强化学习和迁移学习的混合学习算法求解该问题近似最优策略。本文的多智能体强化学习方法利用神经网络描述各颗卫星的强化学习策略,通过协同进化的方法迭代搜索具有最优拓扑结构和连接权重的策略神经网络个体。针对随机出现的观测任务请求导致历史学习策略失效,通过迁移学习将历史学习策略转换为当前初始策略,保证规划质量前提下加快多星协同任务规划速度。仿真实验及分析结果表明本文算法对动态随机出现的任务请求有良好的适应性。  相似文献   

3.
多架无人机协同攻击能够充分利用各个飞机的作战资源和空间占位,是未来空战的主要模式,对多无人机进行编队具有比较重要的实际意义。多智能体技术通过采用各智能体间的通信、合作、协调、管理及控制来表达实际系统的结构、功能及行为特性,为实际问题提供一种统一的框架。本文简要介绍了多智能体的概念及易于协调管理的特点,从多智能体系统理论和群集控制思想出发,对多无人机编队问题进行了分析和描述.  相似文献   

4.
无人机依靠作战效费比高、灵活自主等优势逐步替代了有生力量作战,多无人机协同作战任务规划成为热点研究问题。针对传统任务规划采用的智能优化算法存在的依赖静态、低维的简单场景、机上计算较慢等不足,提出一种基于深度强化学习(DRL)的端到端的多无人机协同进攻智能规划方法。将压制敌防空作战(SEAD)任务规划过程建模为马尔科夫决策过程,建立基于近端策略优化(PPO)算法的SEAD 智能规划模型,通过两组实验验证智能规划模型的有效性和鲁棒性。结果表明:基于DRL 的智能规划方法可以实现快速、精细规划,适应未知、连续高维的环境态势,智能规划模型具有战术协同规划能力。  相似文献   

5.
6.
多智能体路径规划应用广泛但求解困难。为更好地处理多智能体路径规划中的路径冲突问题,提高求解效率,将冲突进一步分类为相向顶点冲突和交叉顶点冲突,并提出了对应的消解方式。相向顶点冲突的消解方法采用提前添加约束的方式,避免在消解其冲突的过程中产生另一个可预见的冲突;交叉顶点冲突的消解方法采用寻找最佳等待时间的方式,在消解其冲突的同时消解其他存在的冲突。两种冲突消解方法均可减小约束树的规模,在一定程度上减少算法的计算量。并提出了基于冲突搜索算法的高层节点冲突搜索算法。实验结果表明,所提出的冲突分类及消解方式有效地减小了算法高层中约束树的规模,降低了算法计算量,并在智能体密集的环境下表现出更大的优势。  相似文献   

7.
空战是战争走向立体的重要环节,智能空战已经成为国内外军事领域的研究热点和重点,深度强化学习是实现空战智能化的重要技术途径。针对单智能体训练方法难以构建高水平空战对手问题,提出基于自博弈的空战智能体训练方法,搭建研究平台,根据飞行员领域知识合理设计观测、动作与奖励,通过“左右互搏”方式训练空战智能体至收敛,并通过仿真试验验证空战决策模型的有效性。研究结果表明通过自博弈训练,空战智能体战术水平逐步提升,最终对单智能体训练的决策模型构成70%以上胜率,并涌现类似人类“单/双环”战术的空战策略。  相似文献   

8.
针对单个月球车难以高效鲁棒地探测月面极端区域的问题,提出了一种基于多智能体强化学习的月球车协同探测方法。首先,将探测区域进行离散化处理,并使用栅格地图表达探测信息及各月球车的位置信息,然后,使用深度神经网络对视觉图像信息、激光雷达信息以及栅格地图信息进行特征提取;之后,在多智能体强化学习的架构下学习月球车的协同探测策略,通过设计考虑探测时间、安全约束及通信约束的奖励函数,使月球车可以快速安全地对月面极端区域进行协同探测;最后,在Gazebo中搭建了月面仿真环境并进行了仿真验证。结果表明:所提出的方法具备较高的探测效率与较好的安全保障。  相似文献   

9.
10.
飞机规避中距空空导弹的逃逸机动策略对于提高战斗机的生存力至关重要。针对深度确定性策略梯度算法训练智能体学习飞机规避导弹的逃逸机动策略进行研究。以飞机导弹相对态势参数等作为智能体的输入状态,飞机控制指令作为智能体的输出动作,导弹飞机追逃模型作为智能体的学习环境,设计由相对态势和飞行参数构成的成型奖励以及由交战结果组成的稀疏奖励,实现从状态参数到控制量端到端的逃逸机动策略。通过与四种基于专家先验知识的典型逃逸机动攻击区仿真验证对比,结果表明:智能体实现的逃逸策略攻击区仅次于置尾下降攻击区,该策略对飞机规避导弹先验知识的依存度最低。  相似文献   

11.
无人机栖落机动飞行是一种无需跑道的降落方法,能够提升无人机在复杂环境下执行任务的适应能力。针对具有高非线性、多约束特性的无人机栖落机动过程,提出了一种基于模仿深度强化学习的控制策略设计方法。首先,建立了固定翼无人机栖落机动的纵向非线性动力学模型,并设计了无人机栖落机动的强化学习环境。其次,针对栖落机动状态动作空间大的特点,为了提高探索效率,通过模仿专家经验的方法对系统进行预训练。然后,以模仿学习得到的权重为基础,采用近端策略优化方法学习构建无人机栖落机动的神经网络控制器。最后,通过仿真验证了上述控制策略设计方法的有效性。  相似文献   

12.
四足机器人灵巧运动技能的生成一直受到机器人研究者们的广泛关注,其中空中翻滚运动既能展现四足机器人运动的灵活性又具有一定的实用价值.近年来,深度强化学习方法为四足机器人的灵巧运动提供了新的实现思路,利用该方法得到的闭环神经网络控制器具有适应性强、稳定性高等特点.本文在绝影Lite机器人上使用基于模仿专家经验的深度强化学习方法,实现了仿真环境中四足机器人的后空翻动作学习,并进一步证明了设计的后空翻闭环神经网络控制器相比于开环传统位置控制器具有适应性更高的特点.  相似文献   

13.
近年来,深度强化学习在解决序列决策问题上取得了很大进展,无模型强化学习算法在与环境不断交互的过程中学习策略,不需要提前对环境建模,使其适用于许多问题。针对以往使用强化学习进行末制导策略学习的训练不稳定问题,使用信任域策略优化算法直接学习末制导控制量,同时设计了一种新颖的奖励函数,可以提高训练稳定性和算法性能。在二维环境下进行了实验,结果表明,该算法具有良好的训练稳定性,并可以达到很好的命中效果。  相似文献   

14.
已有的空中格斗控制方法未综合考虑基于专家知识的态势评估及通过连续性速度变化控制空战格斗的问题。基于深度确定性策略梯度(DDPG)强化学习算法,在态势评估函数作为强化学习奖励函数的基础上,设计综合考虑飞行高度上下限、飞行过载以及飞行速度上下限的强化学习环境;通过全连接的载机速度控制网络与环境奖励网络,实现DDPG算法与学习环境的交互,并根据高度与速度异常、被导弹锁定时间以及格斗时间设计空战格斗结束条件;通过模拟一对一空战格斗,对该格斗控制方法在环境限制学习、态势评估得分以及格斗模式学习进行验证。结果表明:本文提出的空战格斗控制方法有效,能够为自主空战格斗进一步发展提供指导。  相似文献   

15.
针对空间非合作航天器姿态测量时受光照和地球背景影响大的问题,提出了一种基于卷积神经网络的端到端姿态估计方法.在该方法中,主干网络采用AlexNet与ResNet.首先,移除主干网络末端的全连接层,并列连接3个全连接层,采用三分支网络分别对姿态角进行估计.然后,设计了将分类问题与回归问题相结合的损失函数,通过分类方法将姿态估计限定在某一范围内,再使用回归方法进一步微调姿态.姿态分类损失函数确定姿态角度基准点,姿态回归损失函数对估计角度进行微调.相较于仅采用回归方法进行姿态估计,此方法能够有效减小姿态估计平均绝对误差、标准差与最大误差.实验对比了不同主干网络的测量精度,平均绝对误差在0.376°~0.746°之间,最优标准差为0.474°.  相似文献   

16.
以可重构制造单元为研究对象,以实现其适应生产需求的快速重构为目标,提出了一种建立在multi-agent基础之上的可重构制造单元模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号