期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘士荣王天一刘扬《导航定位与授时》2022,(6):77-84

近年来,深度强化学习在解决序列决策问题上取得了很大进展,无模型强化学习算法在与环境不断交互的过程中学习策略,不需要提前对环境建模,使其适用于许多问题。针对以往使用强化学习进行末制导策略学习的训练不稳定问题,使用信任域策略优化算法直接学习末制导控制量,同时设计了一种新颖的奖励函数,可以提高训练稳定性和算法性能。在二维环境下进行了实验,结果表明,该算法具有良好的训练稳定性,并可以达到很好的命中效果。相似文献

2.

基于深度迁移强化学习的无人机投放自主引导机动控制算法

张堃李珂邹杰栗鸣李阳《航空科学技术》2023,(11):103-110

针对无人机精确投放引导问题，本文提出基于深度迁移强化学习的无人机投放自主引导机动控制算法，分别建立基于马尔可夫决策过程的引导机动决策模型、引导机动评估模型等，并设计基于迁移学习和课程学习的引导机动策略训练方法，拟合基于深度学习的引导机动策略和评估网络，最后开展仿真训练和验证试验。仿真结果表明，该算法实现了无人机在任意姿态和位置条件下，能够自主规避区域威胁并自主引导至目标投放点，成功完成投放瞄准任务，有效地提升了无人机投放引导机动控制的自主性。相似文献

3.

基于深度强化学习的无人机栖落机动控制策略设计

下载免费PDF全文

黄赞何真仇靖雯《导航定位与授时》2022,(6):25-32

无人机栖落机动飞行是一种无需跑道的降落方法，能够提升无人机在复杂环境下执行任务的适应能力。针对具有高非线性、多约束特性的无人机栖落机动过程，提出了一种基于模仿深度强化学习的控制策略设计方法。首先，建立了固定翼无人机栖落机动的纵向非线性动力学模型，并设计了无人机栖落机动的强化学习环境。其次，针对栖落机动状态动作空间大的特点，为了提高探索效率，通过模仿专家经验的方法对系统进行预训练。然后，以模仿学习得到的权重为基础，采用近端策略优化方法学习构建无人机栖落机动的神经网络控制器。最后，通过仿真验证了上述控制策略设计方法的有效性。相似文献

4.

基于生成对抗近端策略优化的机动策略优化算法

下载免费PDF全文

付宇鹏邓向阳朱子强高阳张立民《海军航空工程学院学报》2023,38(3):257-261, 300

针对传统强化学习算法在生成空战机动策略时存在收敛效率低、专家经验利用不足的问题,研究了基于生成对抗-近端策略优化的策略生成算法。算法采用判别器-策略-价值(DAC)网络框架,在近端策略优化(PPO)算法基础上,利用专家数据和环境交互数据训练判别器网络,并反馈调节策略网络,实现了约束策略向专家策略方向优化,提高了算法收敛效率和专家经验利用率。仿真环境为基于 JSBSim开源平台的 F-16飞机空气动力学模型。仿真结高,PPO果表明,本文算法收敛效率高于算法,生成的策略模型具备较好的智能性。相似文献

5.

基于深度学习的发动机叶片故障检测技术

下载免费PDF全文

张静农昌瑞张海兵张亚周《航空发动机》2022,48(1):68-75

为了解决航空发动机叶片故障检测中存在的检测精度欠佳、检测效率不高的问题,提出了一种基于深度学习的目标检测方法。针对小样本数据集检测精度低、模型训练速度慢等问题,对Faster R-CNN目标检测算法进行结构优化,引入Res2Net结构,通过分割串联的策略强化残差模块的卷积学习能力,搭建了细粒级的多尺度残差模型Res2Net-50,以提升模型的特征提取能力。同时,在网络的训练过程中,采用多次余弦退火衰减法对学习率进行调整,以加快模型的训练速度,提升模型的训练质量。针对航空发动机叶片裂纹和缺损2种故障类型进行网络训练与检测试验,试验结果表明:优化后的模型识别准确率提高了0.7%,模型的平均检测精度提高了1.8%,训练时间缩短了5.56%,取得了比较好的检测效果。相似文献

6.

强化学习方法在翼型拍动实验中的应用

张进周雷曹博超《空气动力学学报》2023,(9):20-29

将深度强化学习方法应用于水洞实验，实现了实验室内的自动闭环优化框架，并用该框架优化了雷诺数Re=1.3×104下纯俯仰运动的NACA0012翼型模型的推进效率。现有的相关研究往往将运动模式限制为某种周期性函数，具有局限性。借助于强化学习方法，实现了在更广的非周期动作空间中的动作搜索。在实验中，模型自动地与水洞环境进行交互，最终学习到了高效推进的非周期运动策略。另外，通过修改奖励函数，实现了在给定推力阈值以上的效率优化。研究结果显示，强化学习模型可以在实验过程中通过不断调整拍动动作的幅度和频率来实现推进效率的持续提升，并且最终通过强化学习方法获得的最优拍动动作均与正弦拍动动作接近，得到的最优推进效率基本位于同等幅度正弦动作效率的上边界。研究展示了强化学习方法用于复杂流动控制问题的可行性。相似文献

7.

使用深度残差网络的乘波体气动性能预测

陈冰雁刘传振白鹏乔宇《空气动力学学报》2019,37(3)

本文探究深度学习人工智能技术在飞行器气动外形预测中的应用。以激波装配法乘波体设计为背景,建立气动数据快速生成工具,使用拉丁超立方采样得到海量样本数据。使用深度残差神经网络构建气动外形参数到气动性能数据的代理模型,并与随机森林和双隐层神经网络等普通机器学习模型对比;同时将数据转换为图片,研究基于图片识别的深度学习模型搭建,省略飞行器外形的参数化表达。测试结果说明,深度残差网络作为数据代理模型的精度是随机森林和双隐层神经网络的3倍以上,而基于图片识别的代理模型精度提高有限。研究表明,深度残差网络在乘波体等易于生成大量数据的气动外形的性能预测中效果明显,为深度学习技术在气动外形设计中的应用奠定了基础。相似文献

8.

基于多智能体混合学习的多星协同动态任务规划算法(英文) 总被引：2，自引：1，他引：1

王冲李军景宁王钧陈浩《中国航空学报》2011,24(4):493-505

针对多星协同动态任务规划问题,以往多采用基于启发式的重规划算法,但是由于启发式策略依赖于具体任务,使得优化性受到影响。注意到协同规划的历史信息对后续协同规划的影响,本文提出了一种基于策略迭代的多智能体强化学习和迁移学习的混合学习算法求解该问题近似最优策略。本文的多智能体强化学习方法利用神经网络描述各颗卫星的强化学习策略,通过协同进化的方法迭代搜索具有最优拓扑结构和连接权重的策略神经网络个体。针对随机出现的观测任务请求导致历史学习策略失效,通过迁移学习将历史学习策略转换为当前初始策略,保证规划质量前提下加快多星协同任务规划速度。仿真实验及分析结果表明本文算法对动态随机出现的任务请求有良好的适应性。相似文献

9.

基于迁移学习的小样本目标识别研究进展与展望

周旷姜名《航空科学技术》2023,(2):1-9

在空、天、海等复杂环境下的目标识别任务中，高质量的样本数据往往较少。特别是在干扰对抗环境下，某些特定领域的目标信息获取困难，可靠的标注数据较少。小样本问题对深度学习技术在目标识别任务中的应用提出了新的挑战。迁移学习为小样本不确定环境下的目标识别问题提供了新的研究思路。本文针对小样本目标问题，以机载雷达等空天传感器信息对海面目标识别为例，介绍了迁移学习的主要思路和方法，对迁移学习在海面目标识别问题中的应用现状进展进行了总结；分析和归纳了迁移学习在海面目标识别应用中的主要挑战。最后对可解释性及鲁棒性的海洋目标识别技术需求及未来发展方向进行了展望。相似文献

10.

Agent仿真中具有先验知识的混合学习算法与混合结构模型

郭晓军杨建军李红卫《海军航空工程学院学报》2007,22(2):247-251

强化学习是一种有效的机器学习方法,是无监督学习,通过不断地和环境交互得到外部环境评价信号,选择合适的动作。Q学习是一种典型的强化学习,其学习效率较低,尤其是当状态空间和决策空间较大时。为提高Q学习学习效率和收敛速度,采用具有先验知识的Q学习算法,利用模糊综合决策方法处理专家经验和环境信息得到Q学习的先验知识,对Q学习的初始状态进行优化;针对Agent个体学习与群体学习各自的不足,提出了采用混合学习算法,将个体学习与群体学习有效结合起来,提高了Agent的个体性能及系统整体的智能水平;同时为满足复杂适应性需求,采用Agent混合结构模型,在该模型中构造了基于知识的协调控制器,通过它来协调慎思式过程和反应式过程。相似文献

11.

基于深度强化学习的固定翼无人机编队协调控制方法

相晓嘉闫超王菖尹栋《航空学报》2021,42(4):524009-524009

由于运动学的复杂性和环境的动态性,控制一组无人机遂行任务目前仍面临较大挑战。首先,以固定翼无人机为研究对象,考虑复杂动态环境的随机性和不确定性,提出了基于无模型深度强化学习的无人机编队协调控制方法。然后,为平衡探索和利用,将ε-greedy策略与模仿策略相结合,提出了ε-imitation动作选择策略;结合双重Q学习和竞争架构对DQN（Deep Q-Network）算法进行改进,提出了ID3QN（Imitative Dueling Double Deep Q-Network）算法以提高算法的学习效率。最后,构建高保真半实物仿真系统进行硬件在环仿真飞行实验,验证了所提算法的适应性和实用性。相似文献

12.

二次奖罚学习自动机

刘晓《航空计算技术》1999,29(2):47-49

研究了奖罚型学习自动机的一种非线性强化算法。与线性的奖罚模型（ＬＲＰ）不同，新模型的行动选择概率的更新函数为二次的。这使得该模型的学习性能优于ＬＲＰ，且对不同的环境，其具有不同的行为和特点。相似文献

13.

非对称机动能力多无人机智能协同攻防对抗 总被引：1，自引：0，他引：1

陈灿莫雳郑多程子恒林德福《航空学报》2020,41(12):324152-324152

协同攻防对抗是未来军用无人机的重要作战场景。针对不同机动能力无人机群体间的攻防对抗问题，建立了多无人机协同攻防演化模型，基于多智能体强化学习理论，研究了多无人机协同攻防的自主决策方法，提出了基于执行-评判（Actor-Critic）算法的集中式评判和分布式执行的算法结构，保证算法稳定收敛的同时，提升执行效率。无人机的评判模块使用全局信息评价决策优劣引导策略学习，而执行时只需要依赖局部感知信息进行自主决策，提高了多机攻防对抗的效能。仿真结果表明，所提的多无人机强化学习方法具备较强的自进化属性，赋予了无人机一定智能，即稳定的自主学习能力，通过不断演化，能自主学习提升协同对抗的决策效能。相似文献

14.

Coactive design of explainable agent-based task planning and deep reinforcement learning for human-UAVs teamwork

《中国航空学报》2020,33(11):2930-2945

Unmanned Aerial Vehicles (UAVs) are useful in dangerous and dynamic tasks such as search-and-rescue, forest surveillance, and anti-terrorist operations. These tasks can be solved better through the collaboration of multiple UAVs under human supervision. However, it is still difficult for human to monitor, understand, predict and control the behaviors of the UAVs due to the task complexity as well as the black-box machine learning and planning algorithms being used. In this paper, the coactive design method is adopted to analyze the cognitive capabilities required for the tasks and design the interdependencies among the heterogeneous teammates of UAVs or human for coherent collaboration. Then, an agent-based task planner is proposed to automatically decompose a complex task into a sequence of explainable subtasks under constrains of resources, execution time, social rules and costs. Besides, a deep reinforcement learning approach is designed for the UAVs to learn optimal policies of a flocking behavior and a path planner that are easy for the human operator to understand and control. Finally, a mixed-initiative action selection mechanism is used to evaluate the learned policies as well as the human’s decisions. Experimental results demonstrate the effectiveness of the proposed methods. 相似文献

15.

实例推理中遗传训练算法用于机械失效模式识别的研究

徐元铭张洋陈丽娜《中国航空学报》2005,18(2):122-129

采用实例推理和遗传算法相结合的方法，研究了航空机械零部件失效模式识别的问题。对用于识别的失效属性的选择、检索相似度计算、训练用遗传算法的适应度函数设计以及训练策略的影响进行了较为详细的描述。应用测试表明，对包含分布均衡的3种模式的情况取得了高于74．67％的识别率，所获得的最佳权值向量对另外2种模式具有很好的识别精度（大于73．3％），对混合多模式情况也具有较好的推广能力。验证了该方法对航空零部件失效模式的识别是可行的。相似文献

16.

基于深度强化学习的四足机器人后空翻动作生成方法

下载免费PDF全文

李岸荞王志成古勇吴俊朱秋国《导航定位与授时》2021,8(6):35-42

四足机器人灵巧运动技能的生成一直受到机器人研究者们的广泛关注,其中空中翻滚运动既能展现四足机器人运动的灵活性又具有一定的实用价值.近年来,深度强化学习方法为四足机器人的灵巧运动提供了新的实现思路,利用该方法得到的闭环神经网络控制器具有适应性强、稳定性高等特点.本文在绝影Lite机器人上使用基于模仿专家经验的深度强化学习方法,实现了仿真环境中四足机器人的后空翻动作学习,并进一步证明了设计的后空翻闭环神经网络控制器相比于开环传统位置控制器具有适应性更高的特点. 相似文献

17.

基于强化学习的多无人机避碰计算制导方法

下载免费PDF全文

赵毓郭继峰郑红星白成超《导航定位与授时》2021,8(1):31-40

针对大量固定翼无人机在有限空域内的协同避碰问题,提出了一种基于多智能体深度强化学习的计算制导方法。首先,将避碰制导过程抽象为序列决策问题,通过马尔可夫博弈理论对其进行数学描述。然后提出了一种基于深度神经网络技术的自主避碰制导决策方法,该网络使用改进的Actor-Critic模型进行训练,设计了实现该方法的机器学习架构,并给出了相关神经网络结构和机间协调机制。最后建立了一个实体数量可变的飞行场景模拟器,在其中进行"集中训练"和"分布执行"。为了验证算法的性能,在高航路密度场景中进行了仿真实验。仿真结果表明,提出的在线计算制导方法能够有效地降低多无人机在飞行过程中的碰撞概率,且对高航路密度场景具有很好的适应性。相似文献