期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

黄旭柳嘉润贾晨辉王昭磊张隽《航空学报》2021,42(11):524688-524688

对深度确定性策略梯度算法训练智能体学习小型无人飞行器的飞行控制策略进行了探索研究。以多数据帧的速度、位置和姿态角等信息作为智能体的观察状态,舵摆角和发动机推力指令作为智能体的输出动作,飞行器的非线性模型和飞行环境作为智能体的学习环境。智能体在与环境交互过程中除了获得包含误差信息的密集惩罚外,也有达成一定目标的稀疏奖励,该设计有效提高了飞行数据的样本多样性,增强了智能体的学习效率。最后智能体实现了从位置、速度和姿态角等信息到控制量的端到端飞行控制,并进行了变航迹点、模型参数拉偏、注入扰动和故障条件下的飞行控制仿真,结果表明智能体除了能有效完成训练任务外,还能应对多种训练时未学习的飞行任务,具有优秀的泛化能力和鲁棒性,该方法具有一定的研究价值和工程参考价值。相似文献

2.

基于深度确定性策略梯度算法的战机规避中距空空导弹研究

宋宏川詹浩夏露李向阳刘艳《航空工程进展》2021,12(3):85-94

飞机规避中距空空导弹的逃逸机动策略对于提高战斗机的生存力至关重要。针对深度确定性策略梯度算法训练智能体学习飞机规避导弹的逃逸机动策略进行研究。以飞机导弹相对态势参数等作为智能体的输入状态,飞机控制指令作为智能体的输出动作,导弹飞机追逃模型作为智能体的学习环境,设计由相对态势和飞行参数构成的成型奖励以及由交战结果组成的稀疏奖励,实现从状态参数到控制量端到端的逃逸机动策略。通过与四种基于专家先验知识的典型逃逸机动攻击区仿真验证对比,结果表明：智能体实现的逃逸策略攻击区仅次于置尾下降攻击区,该策略对飞机规避导弹先验知识的依存度最低。相似文献

3.

基于自博弈深度强化学习的空战智能决策方法

单圣哲张伟伟《航空学报》2024,(4):206-218

空战是战争走向立体的重要环节,智能空战已经成为国内外军事领域的研究热点和重点,深度强化学习是实现空战智能化的重要技术途径。针对单智能体训练方法难以构建高水平空战对手问题,提出基于自博弈的空战智能体训练方法,搭建研究平台,根据飞行员领域知识合理设计观测、动作与奖励,通过“左右互搏”方式训练空战智能体至收敛,并通过仿真试验验证空战决策模型的有效性。研究结果表明通过自博弈训练,空战智能体战术水平逐步提升,最终对单智能体训练的决策模型构成70%以上胜率,并涌现类似人类“单/双环”战术的空战策略。相似文献

4.

基于近端策略优化的空战决策算法研究

下载免费PDF全文

张博超温晓玲刘璐张雅茜王宏光《航空工程进展》2023,14(2):145-151

面对未来有/无人机协同作战场景,实时准确的空战决策是制胜的关键。复杂的空中环境、瞬变的态势数据以及多重繁琐的作战任务,使有/无人机协同作战将替代单机作战成为未来空战的发展趋势,但多智能体建模和训练过程却面临奖励分配困难、网络难收敛的问题。针对5v5 有/无人机协同的空战场景,抽象出有人机和无人机智能体的特征模型,提出基于近端策略优化算法的空战智能决策算法,通过设置态势评估奖励引导空战过程中有/无人机智能体的决策行为向有利态势发展,实现在与环境的实时交互中,输出空战决策序列。通过仿真实验对所提空战决策算法进行验证,结果表明：本文提出的算法在经过训练学习后,能够适应复杂的战场态势,在连续动作空间中得到稳定合理的决策策略。相似文献

5.

自主空战连续决策方法

下载免费PDF全文

单圣哲杨孟超张伟伟高传强《航空工程进展》2022,13(5):47-58

未来空战正朝着无人化、自主化方向发展,自主空战决策方法是未来空战的重要支撑手段之一。传统空战决策方法由于维度限制,存在无法处理连续动作与远视决策的问题。基于Actor-Critic 方法提出空战连续决策的统一架构,依据空战训练经验对状态空间、动作空间、奖励及训练科目进行合理设计,测试多种连续动作空间强化学习算法在高不确定性空战场景下的学习效果并进行可视化验证。结果表明：基于本文提出的方法架构,可以实现连续动作下的远视价值寻优,智能体可以在复杂空战态势下做出最优决策,对随机机动飞行目标有较高的击杀率,且空战机动轨迹具有较高的合理性。相似文献

6.

基于STDP奖励调节的类脑面向目标导航

下载免费PDF全文

戴嘉伟熊智晁丽君杨闯《导航定位与授时》2023,10(2):47-56

动物具有优秀的空间自主定位导航能力,能够实现在无先验环境信息下的导航定位和导航决策过程。针对智能体在连续空间中面向目标导航问题,研究了一种基于生物学放电时间依赖可塑性学习规则的智能体面向目标导航算法。首先分析了动物面向目标导航决策过程中的生理学机理,在此基础上,构建了基于脉冲神经网络的位置细胞和动作细胞模型。动作细胞间权值采用横向竞争模型更新,通过环境奖励信号的更新,采用放电时间依赖可塑性学习规则对位置细胞前馈动作细胞模型的突触权重进行权值调节,利用动作细胞群的脉冲放电现象表征智能体运动方向和速度。最后,对所提算法进行了仿真实验验证。仿真结果表明,所提出的类脑面向目标导航算法能够在单障碍环境中实现30 ms左右的规划速度,相比传统强化学习Q学习方法平均路径规划长度缩短了15.9%。相似文献

7.

Agent仿真中具有先验知识的混合学习算法与混合结构模型

下载免费PDF全文

郭晓军杨建军李红卫《海军航空工程学院学报》2007,22(2):247-251

强化学习是一种有效的机器学习方法,是无监督学习,通过不断地和环境交互得到外部环境评价信号,选择合适的动作。Q学习是一种典型的强化学习,其学习效率较低,尤其是当状态空间和决策空间较大时。为提高Q学习学习效率和收敛速度,采用具有先验知识的Q学习算法,利用模糊综合决策方法处理专家经验和环境信息得到Q学习的先验知识,对Q学习的初始状态进行优化;针对Agent个体学习与群体学习各自的不足,提出了采用混合学习算法,将个体学习与群体学习有效结合起来,提高了Agent的个体性能及系统整体的智能水平;同时为满足复杂适应性需求,采用Agent混合结构模型,在该模型中构造了基于知识的协调控制器,通过它来协调慎思式过程和反应式过程。相似文献

8.

基于深度Q网络的多智能体逃逸算法设计CSCD

下载免费PDF全文

闫博为杜润乐班晓军周荻《导航定位与授时》2022,(6):40-47

当前多智能体追逃博弈问题通常在二维平面下展开研究,且逃逸方智能体运动不受约束,同时传统方法在缺乏准确模型时存在设计控制策略困难的问题。针对三维空间中逃逸方智能体运动受约束的情况,提出了一种基于深度Q网络(DQN)的多智能体逃逸算法。该算法采用分布式学习的方法,逃逸方智能体通过对环境的探索学习得到满足期望的逃逸策略。为提高学习效率,根据任务的难易程度将智能体策略学习划分为两个阶段,并设计了相应的奖励函数引导智能体探索满足期望的逃逸策略。仿真结果表明,该算法所得逃逸策略效果稳定,并且具有泛化能力,在改变一定的初始位置条件后,逃逸方智能体也可成功逃逸。相似文献

9.

基于深度强化学习的智能空战决策与仿真

周攀黄江涛章胜刘刚舒博文唐骥罡《航空学报》2023,(4):99-112

飞行器空战智能决策是当今世界各军事强国的研究热点。为解决近距空战博弈中无人机的机动决策问题，提出一种基于深度强化学习方法的无人机近距空战格斗自主决策模型。决策模型中，采取并改进了一种综合考虑攻击角度优势、速度优势、高度优势和距离优势的奖励函数，改进后的奖励函数避免了智能体被敌机诱导坠地的问题，同时可以有效引导智能体向最优解收敛。针对强化学习中随机采样带来的收敛速度慢的问题，设计了基于价值的经验池样本优先度排序方法，在保证算法收敛的前提下，显著加快了算法收敛速度。基于人机对抗仿真平台对决策模型进行验证，结果表明智能决策模型能够在近距空战过程中压制专家系统和驾驶员。相似文献

10.

基于DE-MADDPG的多无人机协同追捕策略

符小卫王辉徐哲《航空学报》2022,(5):530-543

针对多无人机协同对抗快速目标的追逃博弈问题,研究了多无人机的协同追捕策略。基于解耦多智能体深度确定性策略梯度算法DE-MADDPG研究了多无人机协同对抗快速目标的追捕策略,设计了多无人机协同追捕的全局奖励和局部奖励两种奖励函数,训练后的多无人机能够有效地执行协同追捕任务。通过设置快速目标的多种逃逸控制策略,仿真验证了所设计的方法能够利用追捕无人机的数量优势,通过协作完成对快速目标的协同围捕,并且通过比较,验证本文所提出的算法相比MADDPG算法更快地取得了收敛效果。相似文献

11.

基于DDPG算法的无人机集群追击任务

张耀中许佳林姚康佳刘洁凌《航空学报》2020,41(10):324000-324000

无人机的集群化应用技术是近年来的研究热点，随着无人机自主智能的不断提高，无人机集群技术必将成为未来无人机发展的主要趋势之一。针对无人机集群协同执行对敌方来袭目标的追击任务，构建了典型的任务场景，基于深度确定性策略梯度网络（DDPG）算法，设计了一种引导型回报函数有效解决了深度强化学习在长周期任务下的稀疏回报问题，通过引入基于滑动平均值的软更新策略减少了DDPG算法中Eval网络和Target网络在训练过程中的参数震荡，提高了算法的训练效率。仿真结果表明，训练完成后的无人机集群能够较好地执行对敌方来袭目标的追击任务，任务成功率达到95%。可以说无人机集群技术作为一种全新概念的作战模式在军事领域具有潜在的应用价值，人工智能算法在无人机集群的自主决策智能化发展方向上具有一定的应用前景。相似文献

12.

Rosetta Ground Segment and Mission Operations 总被引：1，自引：0，他引：1

M. Warhaut P. Ferri E. Montagnon 《Space Science Reviews》2007,128(1-4):189-204

At the European Space Operations Centre in Darmstadt (Germany) the activities for ground segment development and mission operations preparation for Rosetta started in 1997. Many of the characteristics of this mission were new to ESOC and have therefore required an early effort in identifying all the necessary facilities and functions. The ground segment required entirely new elements to be developed, such as the large deep-space antenna built in New Norcia (Western Australia). The long duration of the journey to the comet, of about 10 years, required an effort in the operations concept definition to reduce the cost of routine monitoring and control. The new approaches adopted for the Rosetta mission include full transfer of on-board software maintenance responsibility to the operations team, and the installation of a fully functioning spacecraft engineering model at ESOC, in support of testing and troubleshooting activities in flight, but also for training of the operations staff. Special measures have also been taken to minimise the ground contact with the spacecraft during cruise, to reduce cost, down to a typical frequency of one contact per week. The problem of maintaining knowledge and expertise in the long flight to comet Churyumov–Gerasimenko is also a major challenge for the Rosetta operations team, which has been tackled early in the mission preparation phase and evolved with the first years of flight experience. 相似文献

13.

嫦娥探测器分段渐倾转移机构设计 总被引：1，自引：1，他引：0

马超孙京刘宾李新立张大伟姜生元季节《航空学报》2019,40(10):223014-223014

巡视探测器转移机构是在地外空间环境执行巡视探测器转移释放任务的空间机构。与美国、苏联转移任务不同,中国探月工程（CLEP）二期着陆器采用腿式着陆缓冲机构及巡视器顶部搭载方式,转移任务沿着陆器周向展开距离及巡视器释放高度增加,转移难度增大。在设计阶段,转移机构是否符合探测任务严苛的工程约束及设计指标;在执行阶段,转移机构能否在月面非确知环境下正常展开、转移过程是否稳定可靠,是嫦娥探测器顺利完成探测任务的关键。为保障月球后续任务及火星探测任务中转移机构的设计需要,根据巡视器转移系统特点,以探月二期工程中首次探索并成功自主设计定型的嫦娥分段渐倾转移机构为例,对巡视器转移系统的组成、任务需求及设计约束予以阐述,并结合参研人员经验,对机构研制方案的选取、关键环节设计、工程状态及任务验证情况进行说明,以为后续工作及相关工程提供参考。相似文献

14.

基于Transformer层次预测的多星应急观测任务规划方法

罗棕杜春陈浩彭双李军《航空学报》2021,42(4):524721-524721

应急观测任务规划是一个强时效性的复杂组合优化问题,必须在规定的时限内完成相应的计算。采用机器学习的方法对规划问题进行初始规划方案预测,可以有效地简化计算复杂度。为此,提出一种基于Transformer层次预测的多星应急观测任务规划方法,将多星任务规划的求解过程分解为3个步骤：首先,利用基于Transformer的任务可调度性预测模型预测待规划任务是否执行,得到预执行任务集合;然后,基于Transformer的任务分配模型对预执行任务集合分配卫星,得到初始规划方案;最后,利用基于随机爬山的约束修正算法对初始规划方案进行优化调整,得到可行规划方案。为验证所提方法的有效性,通过大量仿真实验与CPLEX优化器、标准遗传算法、长短期记忆网络等方法模型进行比较,实验结果表明所提方法计算耗时短,规划收益高,适用于多星观测任务快速规划。相似文献

15.

基于多目标算法的空中作战任务规划框架研究

郭昱普蔡飞潘志强《导航定位与授时》2019,6(5):25-31

空中作战任务规划是一项复杂的任务,随着空中作战飞行器的种类、数量及其之间交互性的增加,任务规划也变得越来越复杂。任务规划人员必须在有限的时间内制定出最优的任务分配策略。决策支持工具可以辅助任务规划人员找到最优的规划方案。介绍了设计多目标进化算法以及在空中作战任务规划领域的框架和工作流程,具体的任务包括空中打击动态目标的定位问题和情报监视侦察（ISR）任务规划。总结了这些研究的经验教训,探讨了未来可能的发展方向。相似文献

16.

基于深度强化学习的多无人机协同进攻作战智能规划

下载免费PDF全文

李俊圣岳龙飞左家亮俞利新赵家乐《航空工程进展》2022,13(6):40-49，96

无人机依靠作战效费比高、灵活自主等优势逐步替代了有生力量作战,多无人机协同作战任务规划成为热点研究问题。针对传统任务规划采用的智能优化算法存在的依赖静态、低维的简单场景、机上计算较慢等不足,提出一种基于深度强化学习（DRL）的端到端的多无人机协同进攻智能规划方法。将压制敌防空作战（SEAD）任务规划过程建模为马尔科夫决策过程,建立基于近端策略优化（PPO）算法的SEAD 智能规划模型,通过两组实验验证智能规划模型的有效性和鲁棒性。结果表明：基于DRL 的智能规划方法可以实现快速、精细规划,适应未知、连续高维的环境态势,智能规划模型具有战术协同规划能力。相似文献

17.

通信约束下异构多无人机任务分配方法

陈璞严飞刘钊成果达《航空学报》2021,42(8):525844-525844

针对异构多无人机协同执行侦察和打击任务中,存在通信距离、时间延迟等约束条件下的局部任务分配问题,提出了一种基于合同网的分布式多无人机任务分配方法。首先建立了异构集群发现新目标时的局部任务分配问题模型,设计了局部无人机通信网络中的信息一致性算法,实现了任务分配过程中任务发布阶段各无人机的冲突消解。设计了任务分配过程中的联盟构建和无人机资源管理方法,使联盟中各无人机能够以更加平衡的方式消耗资源。仿真结果表明,该方法能够解决通信约束下,异构多无人机执行察打任务时,所触发的针对目标打击任务的任务分配问题,且能够获得最大的系统效能。相似文献

18.

Fuzzy corrections in a GPS/INS hybrid navigation system 总被引：1，自引：0，他引：1

Hiliuta A. Landry R. Jr. Gagnon F. 《IEEE transactions on aerospace and electronic systems》2004,40(2):591-600

A new concept regarding GPS/INS integration, based on artificial intelligence, i.e. adaptive neuro-fuzzy inference system (ANFIS) is presented. The GPS is used as reference during the time it is available. The data from GPS and inertial navigation system (INS) are used to build a structured knowledge base consisting of behavior of the INS in some special scenarios of vehicle motion. With the same data, the proposed fuzzy system is trained to obtain the corrected navigation data. In the absence of the GPS information, the system will perform its task only with the data from INS and with the fuzzy correction algorithm. This paper shows, using Matlab simulations, that as long as the GPS unavailability time is no longer than the previous training time and for the scenarios a priori defined, the accuracy of trained ANFIS, in absence of data from a reference navigation system, is better than the accuracy of stand-alone INS. The flexibility of model is also analyzed. 相似文献

19.

《思想道德修养与法律基础》课多媒体教学设计的探索

方凤玲《西安航空技术高等专科学校学报》2014,(4):78-81

《思想道德修养与法律基础》课多媒体教学设计要坚持教材体系向教学体系转化等原则,将书本内容形象化,抽象理论直观化;基本知识情景化,教学环境轻松化;媒体素材选择化,各种资源主题化;学习空间无限化,学习方式交互化。从而使现代教育思想、多媒体技术和传统教学模式有机地结合起来,通过教学资源平台和网络平台等多媒体技术,创设利于教学的学习环境,完成对道德与法律知识的建构和对学生行为的指导。相似文献