共查询到10条相似文献,搜索用时 46 毫秒
1.
2.
针对航天器轨道追逃博弈问题,提出一种多阶段学习训练赋能方法,使得追踪星在终端时刻抵近逃逸星的特定区域,而逃逸星需要通过轨道机动规避追踪星。首先,构建两星的训练策略集,基于逻辑规则设计追踪星和逃逸星的机动策略,通过实时预测对方的终端位置,设计己方的期望位置和脉冲策略,显式给出追逃策略的解析表达式,用于训练赋能;其次,为提升航天器的训练赋能效率及应对未知环境的博弈能力,提出一种基于强化学习技术多模式、分阶段的学习训练方法,先使追踪星和逃逸星分别应对上述逻辑规则引导下的逃逸星和追踪星,完成预训练;再次,开展二次训练,两星都采用邻近策略优化(PPO)策略进行追逃博弈,在博弈中不断调整网络权值,提升决策能力;最后,在仿真环境中验证提出的训练方法的有效性,经过二次训练后,追踪星和逃逸星可有效应对不同策略驱动下的对手,提升追逃成功率。 相似文献
3.
4.
针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输出结构进行设计,并引入具有记忆功能的长短期记忆网络(LSTM),根据航天器轨道运动在时间、空间连续的属性,补偿位置、速度测量信息的非完备性。然后采用近端策略优化(PPO)算法开展红蓝左右互搏式学习训练。最后通过三组对比训练实验,验证了所提出的方法在信息非完备约束下能够有效增强学习训练过程的稳定性,并提升任务完成率和降低燃料消耗。 相似文献
5.
本文研究了地球高阶引力模型中,基于脉冲作用的航天器轨道追逃问题。针对该问题,将航天器轨道追逃问题定义为两选手计算博弈,其中以博弈双方的距离和燃料消耗设计了性能指标函数,并以速度增量大小和方向构建容许控制集。此外,为了保证纳什均衡解的求解效率,引入了快速搜索(ARS)算法,并设计了一种数据剪枝方法用于优化搜索空间,最终实现了基于计算博弈的控制策略的快速求解。仿真结果表明:该方法能够有效解决脉冲作用下航天器的追逃难题,与传统方法相比,该方法能同时满足脱靶量精度和燃料消耗要求,具有一定的可行性和有效性。 相似文献
6.
多智能体系统在许多实际领域中得到了广泛应用,包括机器人技术、分布式控制和多人游戏等。这些领域中的许多复杂任务无法通过预定义的智能体行为来解决,而基于通信的多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)技术是应对这些挑战的有效方法之一。该领域存在2个核心问题:1)如何建立有效的多智能体通信机制,从而提升多智能体系统的整体性能;2)在带宽受限的场景下,如何设计高效的通信调度方案从而压缩通信过程中冗余信息。本文首先对处理这两个核心问题的文献进行了概述并重点介绍具有代表性的一些工作,接着说明其在航天领域的应用前景,最后进行总结。 相似文献
7.
8.
9.
针对空间非合作目标清除任务中的目标适应性以及俘获动作规划复杂性等问题,提出了一种基于强化学习方法并结合“多臂分组协同”机制的包络俘获策略。首先构建了多臂俘获机构的物理模型和运动学模型,之后利用SAC(soft actor-critic)算法并引入前演训练(PT)设计了强化学习控制器,接着基于“多臂分组协同”奖励机制设计奖励函数以训练得到最优俘获动作。为了验证俘获策略对单目标作业的高效性和对多目标作业的高适应性,对各种目标分别进行仿真实验。仿真结果表明:所得的俘获策略可以对多种构型的目标实现高效、高适应地俘获。 相似文献
10.
针对高速机动飞行器常用的程序化机动突防方式适应性不强、突防效果不稳定的问题,提出了一种基于深度强化学习算法的机动博弈制导方法。该方法以增大交会摆脱量为任务目标,采用深度神经网络拟合飞行器的制导律,应用强化学习方法训练网络参数,得到一种以突防拦截双方的位置和速度为输入、以飞行器的需用过载为输出的智能机动博弈制导律。数学仿真验证结果表明,在连续的状态空间和动作空间中,飞行器能根据当前态势自主选择合适的制导指令。相比传统突防方式,该制导律显著提升了交会摆脱量,且突防效果更稳定。 相似文献