期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王桢朗何慧群周军金云飞《上海航天》2024,41(1):108-115

为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况下,仍具有一定的自主协同能力及独立实现多星观测任务的高效分配能力。相似文献

2.

航天器轨道追逃博弈多阶段强化学习训练方法

下载免费PDF全文

袁利耿远卓汤亮黄煌《上海航天》2022,39(4):33-41

针对航天器轨道追逃博弈问题,提出一种多阶段学习训练赋能方法,使得追踪星在终端时刻抵近逃逸星的特定区域,而逃逸星需要通过轨道机动规避追踪星。首先,构建两星的训练策略集,基于逻辑规则设计追踪星和逃逸星的机动策略,通过实时预测对方的终端位置,设计己方的期望位置和脉冲策略,显式给出追逃策略的解析表达式,用于训练赋能;其次,为提升航天器的训练赋能效率及应对未知环境的博弈能力,提出一种基于强化学习技术多模式、分阶段的学习训练方法,先使追踪星和逃逸星分别应对上述逻辑规则引导下的逃逸星和追踪星,完成预训练;再次,开展二次训练,两星都采用邻近策略优化(PPO)策略进行追逃博弈,在博弈中不断调整网络权值,提升决策能力;最后,在仿真环境中验证提出的训练方法的有效性,经过二次训练后,追踪星和逃逸星可有效应对不同策略驱动下的对手,提升追逃成功率。相似文献

3.

基于追逃博弈的非合作目标接近控制 总被引：1，自引：0，他引：1

下载免费PDF全文

柴源罗建军王明明韩楠《宇航总体技术》2020,4(1):30-38

针对追踪航天器接近非合作目标任务中的相对位置控制问题,提出了一种基于线性二次型追逃博弈的控制方法。首先,将非合作目标接近问题转化为二人追逃博弈问题,并设计了二次型目标函数。其次,结合相对运动模型,建立了线性二次型追逃博弈模型。为得到纳什均衡策略,将HJ方程转化为代数黎卡提方程,并给出了李雅普诺夫迭代法对其求解。最后,对博弈控制方法的有效性进行仿真验证,结果表明,该方法能够在非合作目标机动时实现轨道接近控制。相似文献

4.

信息非完备下多航天器轨道博弈强化学习方法

下载免费PDF全文

王英杰袁利汤亮黄煌耿远卓《宇航学报》2023,(10):1522-1533

针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输出结构进行设计,并引入具有记忆功能的长短期记忆网络(LSTM),根据航天器轨道运动在时间、空间连续的属性,补偿位置、速度测量信息的非完备性。然后采用近端策略优化(PPO)算法开展红蓝左右互搏式学习训练。最后通过三组对比训练实验,验证了所提出的方法在信息非完备约束下能够有效增强学习训练过程的稳定性,并提升任务完成率和降低燃料消耗。相似文献

5.

基于计算博弈的脉冲作用下航天器追逃策略

下载免费PDF全文

顾天妍张永合蒋峻李超勇《上海航天》2023,40(4):80-87

本文研究了地球高阶引力模型中,基于脉冲作用的航天器轨道追逃问题。针对该问题,将航天器轨道追逃问题定义为两选手计算博弈,其中以博弈双方的距离和燃料消耗设计了性能指标函数,并以速度增量大小和方向构建容许控制集。此外,为了保证纳什均衡解的求解效率,引入了快速搜索(ARS)算法,并设计了一种数据剪枝方法用于优化搜索空间,最终实现了基于计算博弈的控制策略的快速求解。仿真结果表明:该方法能够有效解决脉冲作用下航天器的追逃难题,与传统方法相比,该方法能同时满足脱靶量精度和燃料消耗要求,具有一定的可行性和有效性。相似文献

6.

基于通信的协作型多智能体强化学习算法综述

田琪吴飞《航天控制》2023,(4):13-19

多智能体系统在许多实际领域中得到了广泛应用,包括机器人技术、分布式控制和多人游戏等。这些领域中的许多复杂任务无法通过预定义的智能体行为来解决,而基于通信的多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)技术是应对这些挑战的有效方法之一。该领域存在2个核心问题：1)如何建立有效的多智能体通信机制,从而提升多智能体系统的整体性能;2)在带宽受限的场景下,如何设计高效的通信调度方案从而压缩通信过程中冗余信息。本文首先对处理这两个核心问题的文献进行了概述并重点介绍具有代表性的一些工作,接着说明其在航天领域的应用前景,最后进行总结。相似文献

7.

基于MADDPG的多无人机协同任务决策

下载免费PDF全文

李波越凯强甘志刚高佩忻《宇航学报》2021,42(6):757-765

针对多无人机任务决策方法研究中传统优化算法难以在短时间内得到期望结果的问题,基于深度强化学习提出一种无人机多智能体深度确定性策略梯度(MADDPG)算法,通过允许无人机在学习时使用全局信息,在应用决策的时候只使用局部信息的方法,从网络结构、状态空间、动作空间和奖励函数设计了 MADDPG算法的模型结构.最后通过仿真实验... 相似文献

8.

应用多智能体链路认知的低轨卫星网络路由算法

《航天器工程》2015,(4):83-87

针对低轨卫星链路不稳定和负载不平衡等因素给网络路由带来的严重影响,提出了一种应用多智能体链路认知的低轨卫星网络路由算法。卫星网络通过多智能体对卫星链路投递率和链路可用性等环境进行感知和推理,获得卫星网络中星际链路质量评价,评价结果用于路由的优化,可达到提高网络吞吐率和使负载均衡的目的。以类似"铱"的卫星系统为仿真对象,对比文章算法和传统的自适应最短路径路由算法在吞吐量、丢包率和端到端时延方面的性能。仿真结果表明:文章提出的算法较自适应最短路径路由算法能增大吞吐量,降低丢包率,缩短高负载时的端到端时延,可有效提高低轨卫星通信网络的路由性能。相似文献

9.

一种面向空间非合作目标的强化学习多臂协同俘获策略研究

张柄汉王琛彭兆涛张夷斋张帆《宇航学报》2023,(12):1934-1943

针对空间非合作目标清除任务中的目标适应性以及俘获动作规划复杂性等问题,提出了一种基于强化学习方法并结合“多臂分组协同”机制的包络俘获策略。首先构建了多臂俘获机构的物理模型和运动学模型,之后利用SAC(soft actor-critic)算法并引入前演训练（PT）设计了强化学习控制器,接着基于“多臂分组协同”奖励机制设计奖励函数以训练得到最优俘获动作。为了验证俘获策略对单目标作业的高效性和对多目标作业的高适应性,对各种目标分别进行仿真实验。仿真结果表明：所得的俘获策略可以对多种构型的目标实现高效、高适应地俘获。相似文献

10.

一种基于深度强化学习的机动博弈制导律设计方法

朱雅萌张海瑞周国峰梁卓吕瑞《航天控制》2022,(3):28-36

针对高速机动飞行器常用的程序化机动突防方式适应性不强、突防效果不稳定的问题,提出了一种基于深度强化学习算法的机动博弈制导方法。该方法以增大交会摆脱量为任务目标,采用深度神经网络拟合飞行器的制导律,应用强化学习方法训练网络参数,得到一种以突防拦截双方的位置和速度为输入、以飞行器的需用过载为输出的智能机动博弈制导律。数学仿真验证结果表明,在连续的状态空间和动作空间中,飞行器能根据当前态势自主选择合适的制导指令。相比传统突防方式,该制导律显著提升了交会摆脱量,且突防效果更稳定。相似文献