共查询到17条相似文献,搜索用时 187 毫秒
1.
由感知到动作决策一体化的类脑导航技术研究现状与未来发展 总被引:1,自引:0,他引:1
随着脑与神经科学以及人工智能技术的持续发展,昆虫和哺乳动物大脑导航机理启发下的感知/认知/路径规划/动作决策一体化类脑导航技术得到了较大发展,可以实现由原始感知信息输入到导航动作决策的直接输出,呈现出接近动物端到端面向目标导航的智能行为,具有提高密集型无人机集群导航鲁棒性、准确性、实时响应动作、自主智能性以及计算效率的潜力。阐述了昆虫和哺乳动物大脑导航机理及其互补对称关系,以及昆虫和哺乳动物大脑导航机理启发的端到端类脑导航技术内涵;论述了类脑导航技术研究进展,包括类脑环境感知、类脑空间认知、面向目标类脑导航;分析了类脑导航向智能化、神经形态系统以及群体导航发展的新趋势;最后讨论了类脑导航技术应用于无人机密集集群系统时存在的挑战。 相似文献
2.
无人机类脑吸引子神经网络导航技术 总被引:1,自引:0,他引:1
当前无人机在非结构化或未知环境下飞行主要采用SLAM进行导航与定位,存在如下突出问题:依赖高精度昂贵激光雷达等环境感知传感器;需要建立准确世界和无人机物理模型;受环境影响较大;自主智能水平较低,无法较好地满足无人机对导航系统的要求,需要发展自主智能的导航方式。基于吸引子神经网络的类脑导航技术,无需训练模型参数,不依赖高精度传感器,无需精确建模,且复杂环境下鲁棒性较强,具有解决上述问题的潜力。简要阐述了动物大脑导航机理,分析了吸引子神经网络和基于吸引子神经网络的类脑导航关键技术,最后讨论了吸引子类脑导航技术在无人机应用中的挑战。 相似文献
3.
对深度确定性策略梯度算法训练智能体学习小型无人飞行器的飞行控制策略进行了探索研究。以多数据帧的速度、位置和姿态角等信息作为智能体的观察状态,舵摆角和发动机推力指令作为智能体的输出动作,飞行器的非线性模型和飞行环境作为智能体的学习环境。智能体在与环境交互过程中除了获得包含误差信息的密集惩罚外,也有达成一定目标的稀疏奖励,该设计有效提高了飞行数据的样本多样性,增强了智能体的学习效率。最后智能体实现了从位置、速度和姿态角等信息到控制量的端到端飞行控制,并进行了变航迹点、模型参数拉偏、注入扰动和故障条件下的飞行控制仿真,结果表明智能体除了能有效完成训练任务外,还能应对多种训练时未学习的飞行任务,具有优秀的泛化能力和鲁棒性,该方法具有一定的研究价值和工程参考价值。 相似文献
4.
基于多智能体强化学习的空间机械臂轨迹规划 总被引:1,自引:0,他引:1
针对某型六自由度(DOF)空间漂浮机械臂对运动目标捕捉场景,开展了基于深度强化学习的在线轨迹规划方法研究。首先给出了机械臂DH (Denavit-Hartenberg)模型,考虑组合体力学耦合特性建立了多刚体运动学和动力学模型。然后提出了一种改进深度确定性策略梯度算法,以各关节为决策智能体建立了多智能体自学习系统。而后建立了"线下集中学习,线上分布执行"的空间机械臂对匀速直线运动目标捕捉训练系统,构建以目标相对距离和总操作时间为参数的奖励函数。最后通过数学仿真验证,实现了机械臂对各向匀速运动目标的快速捕捉,平均完成耗时5.4 s。与传统基于随机采样的规划算法对比,本文提出的自主决策运动规划方法求解速度和鲁棒性更优。 相似文献
5.
随着无人机的广泛应用,其飞行能耗和计算能力面临着瓶颈问题,因此无人机路径规划研究越来越重要。很多情况下,无人机并不能提前获得目标点的确切位置和环境信息,往往无法规划出一条有效的飞行路径。针对这一问题,提出了基于导向强化Q学习的无人机路径规划方法,该方法利用接收信号强度定义回报值,并通过Q学习算法不断优化路径;提出"导向强化"的原则,加快了学习算法的收敛速度。仿真结果表明,该方法能够实现无人机的自主导航和快速路径规划,与传统算法相比,大大减少了迭代次数,能够获得更短的规划路径。 相似文献
6.
7.
无人机依靠作战效费比高、灵活自主等优势逐步替代了有生力量作战,多无人机协同作战任务规划成为热点研究问题。针对传统任务规划采用的智能优化算法存在的依赖静态、低维的简单场景、机上计算较慢等不足,提出一种基于深度强化学习(DRL)的端到端的多无人机协同进攻智能规划方法。将压制敌防空作战(SEAD)任务规划过程建模为马尔科夫决策过程,建立基于近端策略优化(PPO)算法的SEAD 智能规划模型,通过两组实验验证智能规划模型的有效性和鲁棒性。结果表明:基于DRL 的智能规划方法可以实现快速、精细规划,适应未知、连续高维的环境态势,智能规划模型具有战术协同规划能力。 相似文献
8.
9.
面对未来有/无人机协同作战场景,实时准确的空战决策是制胜的关键。复杂的空中环境、瞬变的态势数据以及多重繁琐的作战任务,使有/无人机协同作战将替代单机作战成为未来空战的发展趋势,但多智能体建模和训练过程却面临奖励分配困难、网络难收敛的问题。针对5v5 有/无人机协同的空战场景,抽象出有人机和无人机智能体的特征模型,提出基于近端策略优化算法的空战智能决策算法,通过设置态势评估奖励引导空战过程中有/无人机智能体的决策行为向有利态势发展,实现在与环境的实时交互中,输出空战决策序列。通过仿真实验对所提空战决策算法进行验证,结果表明:本文提出的算法在经过训练学习后,能够适应复杂的战场态势,在连续动作空间中得到稳定合理的决策策略。 相似文献
10.
11.
建立动态模糊径向基神经网络RBF( Radial Basis Function,RBF)焊接接头力学性能预测模型,克服静态RBF和模糊神经网络( Fuzzy Neural Network,FNN)在结构辨识、动态样本训练及学习算法的不足。该模型的结构参数不再提前预设,在训练过程中动态自适应调整,适用动态样本数据学习,学习算法引入分级学习和模糊规则修剪策略,加速训练并使模型结构更加紧凑。利用三种厚度、不同工艺TC4钛合金TIG焊接试验数据对该模型进行仿真。结果表明:模型具有较高的预测精度,适用于预测焊接接头力学性能,为焊接过程在线控制开辟了新的途径。 相似文献
12.
13.
针对传统的规则学习算法很难解决顶层决策,以及现阶段航空集群作为一种新兴的作战样式,没有太多现成的数据和案例可供参考,暂不具备"从战争中学习战争"条件等难题,从战争设计的角度出发,探讨性地提出了一种基于情景分析的规则库构建方法。首先,从系统演化的外部触发条件和内部驱动机制出发,提出了基于事件触发-规则驱动的自主决策机制;然后,将航空集群决策规则拆分为事件、条件、动作3部分,并采用事件-条件-动作(ECA)描述机制进行规范化表达;最后,借鉴情景分析理论的思想,通过详细分析作战过程的逻辑关系、状态变迁,实现对象、事件、行为的关联,并以无人机自主察打任务规则提取为例进行了验证分析。 相似文献
14.
基于多智能体混合学习的多星协同动态任务规划算法(英文) 总被引:1,自引:1,他引:1
针对多星协同动态任务规划问题,以往多采用基于启发式的重规划算法,但是由于启发式策略依赖于具体任务,使得优化性受到影响。注意到协同规划的历史信息对后续协同规划的影响,本文提出了一种基于策略迭代的多智能体强化学习和迁移学习的混合学习算法求解该问题近似最优策略。本文的多智能体强化学习方法利用神经网络描述各颗卫星的强化学习策略,通过协同进化的方法迭代搜索具有最优拓扑结构和连接权重的策略神经网络个体。针对随机出现的观测任务请求导致历史学习策略失效,通过迁移学习将历史学习策略转换为当前初始策略,保证规划质量前提下加快多星协同任务规划速度。仿真实验及分析结果表明本文算法对动态随机出现的任务请求有良好的适应性。 相似文献
15.
16.
《中国航空学报》2023,36(6):340-360
Online target maneuver recognition is an important prerequisite for air combat situation recognition and maneuver decision-making. Conventional target maneuver recognition methods adopt mainly supervised learning methods and assume that many sample labels are available. However, in real-world applications, manual sample labeling is often time-consuming and laborious. In addition, airborne sensors collecting target maneuver trajectory information in data streams often cannot process information in real time. To solve these problems, in this paper, an air combat target maneuver recognition model based on an online ensemble semi-supervised classification framework based on online learning, ensemble learning, semi-supervised learning, and Tri-training algorithm, abbreviated as Online Ensemble Semi-supervised Classification Framework (OESCF), is proposed. The framework is divided into four parts: basic classifier offline training stage, online recognition model initialization stage, target maneuver online recognition stage, and online model update stage. Firstly, based on the improved Tri-training algorithm and the fusion decision filtering strategy combined with disagreement, basic classifiers are trained offline by making full use of labeled and unlabeled sample data. Secondly, the dynamic density clustering algorithm of the target maneuver is performed, statistical information of each cluster is calculated, and a set of micro-clusters is obtained to initialize the online recognition model. Thirdly, the ensemble K-Nearest Neighbor (KNN)-based learning method is used to recognize the incoming target maneuver trajectory instances. Finally, to further improve the accuracy and adaptability of the model under the condition of high dynamic air combat, the parameters of the model are updated online using error-driven representation learning, exponential decay function and basic classifier obtained in the offline training stage. The experimental results on several University of California Irvine (UCI) datasets and real air combat target maneuver trajectory data validate the effectiveness of the proposed method in comparison with other semi-supervised models and supervised models, and the results show that the proposed model achieves higher classification accuracy. 相似文献
17.
随着航天事业的蓬勃发展,空间碎片尤其是低轨碎片已成为航天任务不可忽视的威胁。考虑到碎片清除的紧迫性和成本,低轨多碎片主动清除(ADR)技术成为缓解现状的必要手段。针对大规模多碎片主动清除任务规划问题,首先,基于任务规划的最大收益模型,提出一种强化学习(RL)优化方法,并依照强化学习框架定义了该问题的状态、动作以及收益函数;其次,基于高效启发因子,提出一种专用的改进蒙特卡罗树搜索(MCTS)算法,该算法使用MCTS算法作为内核,加入高效启发算子以及强化学习迭代过程;最后,在铱星33碎片云的全数据集中检验了所提算法有效性。与相关MCTS变体方法以及贪婪启发算法对比,所提方法能在测试数据集上更高效地获得较优规划结果,较好地平衡了探索与利用。 相似文献