期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李俊圣岳龙飞左家亮俞利新赵家乐《航空工程进展》2022,13(6):40-49，96

无人机依靠作战效费比高、灵活自主等优势逐步替代了有生力量作战,多无人机协同作战任务规划成为热点研究问题。针对传统任务规划采用的智能优化算法存在的依赖静态、低维的简单场景、机上计算较慢等不足,提出一种基于深度强化学习（DRL）的端到端的多无人机协同进攻智能规划方法。将压制敌防空作战（SEAD）任务规划过程建模为马尔科夫决策过程,建立基于近端策略优化（PPO）算法的SEAD 智能规划模型,通过两组实验验证智能规划模型的有效性和鲁棒性。结果表明：基于DRL 的智能规划方法可以实现快速、精细规划,适应未知、连续高维的环境态势,智能规划模型具有战术协同规划能力。相似文献

2.

基于DE-MADDPG的多无人机协同追捕策略

符小卫王辉徐哲《航空学报》2022,(5):530-543

针对多无人机协同对抗快速目标的追逃博弈问题,研究了多无人机的协同追捕策略。基于解耦多智能体深度确定性策略梯度算法DE-MADDPG研究了多无人机协同对抗快速目标的追捕策略,设计了多无人机协同追捕的全局奖励和局部奖励两种奖励函数,训练后的多无人机能够有效地执行协同追捕任务。通过设置快速目标的多种逃逸控制策略,仿真验证了所设计的方法能够利用追捕无人机的数量优势,通过协作完成对快速目标的协同围捕,并且通过比较,验证本文所提出的算法相比MADDPG算法更快地取得了收敛效果。相似文献

3.

非对称机动能力多无人机智能协同攻防对抗 总被引：1，自引：0，他引：1

陈灿莫雳郑多程子恒林德福《航空学报》2020,41(12):324152-324152

协同攻防对抗是未来军用无人机的重要作战场景。针对不同机动能力无人机群体间的攻防对抗问题，建立了多无人机协同攻防演化模型，基于多智能体强化学习理论，研究了多无人机协同攻防的自主决策方法，提出了基于执行-评判（Actor-Critic）算法的集中式评判和分布式执行的算法结构，保证算法稳定收敛的同时，提升执行效率。无人机的评判模块使用全局信息评价决策优劣引导策略学习，而执行时只需要依赖局部感知信息进行自主决策，提高了多机攻防对抗的效能。仿真结果表明，所提的多无人机强化学习方法具备较强的自进化属性，赋予了无人机一定智能，即稳定的自主学习能力，通过不断演化，能自主学习提升协同对抗的决策效能。相似文献

4.

失效卫星姿态接管的并行学习合作博弈控制

韩楠罗建军马卫华《航空学报》2021,42(3):324307-324307

针对多颗微小卫星合作接管失效卫星姿态运动的问题,研究了考虑微小卫星控制约束的多星合作博弈策略学习与协同控制方法。首先,建立了微小卫星合作博弈模型,给出了能够处理微小卫星控制约束的多星合作博弈帕累托最优策略显式表达式。其次,针对微小卫星合作博弈策略学习需求,通过过去与当前时刻数据的并行使用,设计了基于并行学习的策略迭代方法,该方法放松了神经网络（NN）权值矢量学习对持续激励条件的要求。给出了为确保神经网络权值矢量估值收敛,所使用的过去时刻数据所需满足的条件,并通过Lyapunov方法分析了神经网络权值矢量估计误差的一致最终有界性。之后,采用并行学习策略迭代方法进行了微小卫星合作博弈帕累托最优策略数值解的逼近。所获得的合作博弈策略具有反馈控制形式,在进行神经网络权值矢量学习后,各微小卫星能够通过合作博弈策略的独立计算实现失效卫星姿态运动接管过程中的闭环协同控制。所设计方法避免了传统姿态控制方法所需进行的力矩分配,消除了微小卫星数量对其控制计算复杂度的影响。最后,通过数值仿真对所设计方法的有效性进行了验证。相似文献

5.

基于深度Q网络的多智能体逃逸算法设计CSCD

下载免费PDF全文

闫博为杜润乐班晓军周荻《导航定位与授时》2022,(6):40-47

当前多智能体追逃博弈问题通常在二维平面下展开研究,且逃逸方智能体运动不受约束,同时传统方法在缺乏准确模型时存在设计控制策略困难的问题。针对三维空间中逃逸方智能体运动受约束的情况,提出了一种基于深度Q网络(DQN)的多智能体逃逸算法。该算法采用分布式学习的方法,逃逸方智能体通过对环境的探索学习得到满足期望的逃逸策略。为提高学习效率,根据任务的难易程度将智能体策略学习划分为两个阶段,并设计了相应的奖励函数引导智能体探索满足期望的逃逸策略。仿真结果表明,该算法所得逃逸策略效果稳定,并且具有泛化能力,在改变一定的初始位置条件后,逃逸方智能体也可成功逃逸。相似文献

6.

基于多智能体强化学习的月面极端区域协同探测方法

张杨颜鹏谢旭东白成超《载人航天》2023,(1):78-87

针对单个月球车难以高效鲁棒地探测月面极端区域的问题,提出了一种基于多智能体强化学习的月球车协同探测方法。首先,将探测区域进行离散化处理,并使用栅格地图表达探测信息及各月球车的位置信息,然后,使用深度神经网络对视觉图像信息、激光雷达信息以及栅格地图信息进行特征提取;之后,在多智能体强化学习的架构下学习月球车的协同探测策略,通过设计考虑探测时间、安全约束及通信约束的奖励函数,使月球车可以快速安全地对月面极端区域进行协同探测;最后,在Gazebo中搭建了月面仿真环境并进行了仿真验证。结果表明：所提出的方法具备较高的探测效率与较好的安全保障。相似文献

7.

基于强化学习的多智能体系统目标围捕控制

范之琳杨洪勇韩艺琳《航空学报》2023,(S1):236-245

针对多智能体系统目标围捕问题，提出了基于强化学习的目标围捕控制方法。首先，对多智能体系统进行马尔可夫博弈建模，设计能够控制系统到期望围捕状态并满足避障要求的势能函数，将模型控制与强化学习原理结合，利用势能模型引导的改进多智能体强化学习算法进行围捕。其次，在已有势能模型的基础上建立跟踪围捕和环航围捕2种围捕策略。前者通过设计速度势能函数实现多智能体一致跟踪。后者加入虚拟环航点，设计虚拟环航点势能函数实现期望环航。最终，仿真验证了多智能体强化学习围捕控制策略的有效性。相似文献

8.

基于多智能体的无人作战平台多机协同对抗多目标任务决策方法

姚宗信《航空科学技术》2008,(3)

建立了基于多智能体的多机协同作战任务决策方法结构模型,提出了基于神经网络与证据理论的敌我双方对抗态势分析方法和基于完全信息静态博弈模型的多机协同对抗多目标任务决策方法,并进行了基于典型作战想定的多机协同对抗多目标任务决策方法仿真研究. 相似文献

9.

基于多策略GWO算法的不确定环境下异构多无人机任务分配

张安杨咪毕文豪张百川王雨农《航空学报》2023,(8):148-164

针对具有复杂约束的异构多无人机对地目标侦察打击任务分配问题，考虑不确定的任务执行时长、目标消失时间和无人机巡航速度等不确定因素对任务分配结果的影响，基于模糊可信性理论构建以最小化总成本为优化目标的异构多无人机任务分配的模糊机会约束规划模型，并提出一种多策略融合的灰狼优化算法（IMSGWO），通过引入自适应控制参数调整策略、自适应惯性权重策略、最优学习策略与跳出局部最优策略，在增强种群多样性的同时，提高算法的搜索能力。数值分析结果表明：所提算法能够有效求解不确定环境下的异构多无人机任务分配问题。相似文献

10.

基于深度强化学习算法的空间站任务重规划方法

《载人航天》2020,(4)

针对空间站短期任务重规划问题规划周期短、实时性约束多、约束传播复杂的特点,结合深度强化学习在智能学习和决策上的优势,提出了适用于深度强化学习的空间站任务状态空间编码方式,实现了基于深度确定性策略梯度算法的空间站任务重规划方法。该方法可以通过学习,自主化解约束冲突,摆脱人为预先设定约束冲突化解策略的限制。仿真分析表明:该方法可以通过算法本身不断地学习进化,找到空间站任务重规划问题的近似最优解,相比于传统解决方法,具有很强的智能性和适应性,为解决空间站任务规划问题提供了新思路。相似文献

11.

An aero-engine life-cycle maintenance policy optimization algorithm: Reinforcement learning approach

Zhen LI Shisheng ZHONG Lin LIN 《中国航空学报》2019,32(9):2133-2150

An aero-engine maintenance policy plays a crucial role in reasonably reducing maintenance cost. An aero-engine is a type of complex equipment with long service-life. In engineering,a hybrid maintenance strategy is adopted to improve the aero-engine operational reliability. Thus,the long service-life and the hybrid maintenance strategy should be considered synchronously in aero-engine maintenance policy optimization. This paper proposes an aero-engine life-cycle maintenance policy optimization algorithm that synchronously considers the long service-life and the hybrid maintenance strategy. The reinforcement learning approach was adopted to illustrate the optimization framework, in which maintenance policy optimization was formulated as a Markov decision process. In the reinforcement learning framework, the Gauss–Seidel value iteration algorithm was adopted to optimize the maintenance policy. Compared with traditional aero-engine maintenance policy optimization methods, the long service-life and the hybrid maintenance strategy could be addressed synchronously by the proposed algorithm. Two numerical experiments and algorithm analyses were performed to illustrate the optimization algorithm in detail. 相似文献

12.

基于深度强化学习的无人机栖落机动控制策略设计

下载免费PDF全文

黄赞何真仇靖雯《导航定位与授时》2022,(6):25-32

无人机栖落机动飞行是一种无需跑道的降落方法，能够提升无人机在复杂环境下执行任务的适应能力。针对具有高非线性、多约束特性的无人机栖落机动过程，提出了一种基于模仿深度强化学习的控制策略设计方法。首先，建立了固定翼无人机栖落机动的纵向非线性动力学模型，并设计了无人机栖落机动的强化学习环境。其次，针对栖落机动状态动作空间大的特点，为了提高探索效率，通过模仿专家经验的方法对系统进行预训练。然后，以模仿学习得到的权重为基础，采用近端策略优化方法学习构建无人机栖落机动的神经网络控制器。最后，通过仿真验证了上述控制策略设计方法的有效性。相似文献

13.

多类异构对地观测平台协同任务规划方法

王慧林伍国华马满好《航空学报》2016,37(3):997-1014

目前,不同类型的对地观测平台之间缺乏有效的协同交互机制。这种孤立的资源管控模式难以应对多样且大量的对地观测需求。特别是在一些紧急情况下,如地震、武装冲突、洪涝灾害和森林火灾等,这种模式的弊端尤为突出。研究了多类异构观测资源,包括卫星、飞艇及无人机(UAV)的协同规划问题。首先,提出一种基于多Agent的分层协同规划框架,整合不同观测资源构成一个分布式和松耦合的对地观测系统。其次,将异构对地观测平台的协同规划问题转化为不同子规划中心间的任务分配问题。第三,针对该任务分配问题,提出一种结合禁忌列表模拟退火(SA-TL)算法,在该算法中融合了禁忌表策略,有效提高了算法的性能。仿真实验验证了多Agent协同框架的优越性和SA-TL算法的效率。相似文献

14.

基于启发强化学习的大规模ADR任务优化方法

杨家男侯晓磊 HU Yu Hen 刘勇潘泉冯乾《航空学报》2021,42(4):524354-524354

随着航天事业的蓬勃发展,空间碎片尤其是低轨碎片已成为航天任务不可忽视的威胁。考虑到碎片清除的紧迫性和成本,低轨多碎片主动清除（ADR）技术成为缓解现状的必要手段。针对大规模多碎片主动清除任务规划问题,首先,基于任务规划的最大收益模型,提出一种强化学习（RL）优化方法,并依照强化学习框架定义了该问题的状态、动作以及收益函数;其次,基于高效启发因子,提出一种专用的改进蒙特卡罗树搜索（MCTS）算法,该算法使用MCTS算法作为内核,加入高效启发算子以及强化学习迭代过程;最后,在铱星33碎片云的全数据集中检验了所提算法有效性。与相关MCTS变体方法以及贪婪启发算法对比,所提方法能在测试数据集上更高效地获得较优规划结果,较好地平衡了探索与利用。相似文献

15.

基于深度强化学习的固定翼无人机编队协调控制方法

相晓嘉闫超王菖尹栋《航空学报》2021,42(4):524009-524009

由于运动学的复杂性和环境的动态性,控制一组无人机遂行任务目前仍面临较大挑战。首先,以固定翼无人机为研究对象,考虑复杂动态环境的随机性和不确定性,提出了基于无模型深度强化学习的无人机编队协调控制方法。然后,为平衡探索和利用,将ε-greedy策略与模仿策略相结合,提出了ε-imitation动作选择策略;结合双重Q学习和竞争架构对DQN（Deep Q-Network）算法进行改进,提出了ID3QN（Imitative Dueling Double Deep Q-Network）算法以提高算法的学习效率。最后,构建高保真半实物仿真系统进行硬件在环仿真飞行实验,验证了所提算法的适应性和实用性。相似文献

16.

基于多智能体强化学习的空间机械臂轨迹规划 总被引：1，自引：0，他引：1

赵毓管公顺郭继峰于晓强颜鹏《航空学报》2021,42(1):524151-524151

针对某型六自由度（DOF）空间漂浮机械臂对运动目标捕捉场景,开展了基于深度强化学习的在线轨迹规划方法研究。首先给出了机械臂DH （Denavit-Hartenberg）模型,考虑组合体力学耦合特性建立了多刚体运动学和动力学模型。然后提出了一种改进深度确定性策略梯度算法,以各关节为决策智能体建立了多智能体自学习系统。而后建立了"线下集中学习,线上分布执行"的空间机械臂对匀速直线运动目标捕捉训练系统,构建以目标相对距离和总操作时间为参数的奖励函数。最后通过数学仿真验证,实现了机械臂对各向匀速运动目标的快速捕捉,平均完成耗时5.4 s。与传统基于随机采样的规划算法对比,本文提出的自主决策运动规划方法求解速度和鲁棒性更优。相似文献

17.

Coactive design of explainable agent-based task planning and deep reinforcement learning for human-UAVs teamwork

《中国航空学报》2020,33(11):2930-2945

Unmanned Aerial Vehicles (UAVs) are useful in dangerous and dynamic tasks such as search-and-rescue, forest surveillance, and anti-terrorist operations. These tasks can be solved better through the collaboration of multiple UAVs under human supervision. However, it is still difficult for human to monitor, understand, predict and control the behaviors of the UAVs due to the task complexity as well as the black-box machine learning and planning algorithms being used. In this paper, the coactive design method is adopted to analyze the cognitive capabilities required for the tasks and design the interdependencies among the heterogeneous teammates of UAVs or human for coherent collaboration. Then, an agent-based task planner is proposed to automatically decompose a complex task into a sequence of explainable subtasks under constrains of resources, execution time, social rules and costs. Besides, a deep reinforcement learning approach is designed for the UAVs to learn optimal policies of a flocking behavior and a path planner that are easy for the human operator to understand and control. Finally, a mixed-initiative action selection mechanism is used to evaluate the learned policies as well as the human’s decisions. Experimental results demonstrate the effectiveness of the proposed methods. 相似文献

18.

基于分支深度强化学习的非合作目标追逃博弈策略求解 总被引：2，自引：0，他引：2

刘冰雁叶雄兵高勇王新波倪蕾《航空学报》2020,41(10):324040-324040

为解决航天器与非合作目标的空间交会问题,缓解深度强化学习在连续空间的应用限制,提出了一种基于分支深度强化学习的追逃博弈算法,以获得与非合作目标的空间交会策略。对于非合作目标的空间交会最优控制,运用微分对策描述为连续推力作用下的追逃博弈问题;为避免传统深度强化学习应对连续空间存在维数灾难问题,通过构建模糊推理模型来表征连续空间,提出了一种具有多组并行神经网络和共享决策模块的分支深度强化学习架构。实现了最优控制与博弈论的结合,有效解决了微分对策模型高度非线性且难于利用经典最优控制理论进行求解的难题,进一步提升了深度强化学习对离散行为的学习能力,并通过算例仿真检验了该算法的有效性。相似文献

19.

基于改进ARA^*算法的无人机在线航迹规划

陈都孟秀云《飞行力学》2021,(1):60-65

针对无人机三维在线航迹规划对算法速率、航迹最优性的需求,提出了基于改进ARA^*算法的无人机在线航迹规划方法。首先,建立无人机三维航迹规划的数学模型;然后,提出了节点空间约简策略、局部启发项策略以提高算法收敛速率,并针对复杂规划环境提出了启发因子自适应递减策略。仿真结果表明,所提算法能够快速、稳定地生成首条可行航迹,并在剩余时间内不断提高航迹质量,可应用于不同类型的在线规划任务,动态地适应规划时间与航迹最优性的要求。相似文献