首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
吴其昌  李彬  李君  张洪波 《航天控制》2019,37(6):13-18,58
航天器追逃博弈是当前航天领域的一个研究热点,传统上多采用微分对策来获取追逃双方的最优控制策略,但是方法求解复杂、计算量大,难以满足复杂任务和对抗类任务的实时性要求。随着机器学习技术的发展,利用深度神经网络结构实现全部或部分的在线决策成为可能,因此研究了基于深度神经网络生成无限时域型追逃博弈最优控制策略问题。首先基于CW方程建立追逃博弈相对运动模型,采用微分对策理论得到追逃最优控制策略,得到训练数据集和测试数据集;基于TensorFlow环境搭建了4层神经网络,采用Adam优化算法对网络进行训练。仿真结果表明,经过训练的深度神经网络生成的控制策略与传统方法的策略基本一致,虽然长时间追逃的控制差异逐渐增大,但变化趋势相同,说明利用深度神经网络生成航天器追逃博弈的机动策略是有效的。  相似文献   

2.
针对无人机自主避障与目标追踪问题,以深度Q网络(DQN)算法为基础,提出一种多经验池深度Q网络(MP DQN)算法,使无人机避障与追踪的成功率和算法的收敛性得到优化。更进一步,赋予无人机环境感知能力,并在奖励函数中设计了方向奖惩函数,提升了无人机对环境的泛化能力以及算法的整体性能。仿真结果表明,相较于DQN和双重DQN(DDQN)算法,MP DQN算法具有更快的收敛速度、更短的追踪路径和更强的环境适应性。  相似文献   

3.
针对大气层内高速机动目标的拦截问题,提出了一种基于双延迟深度确定性策略梯度(TD3)算法的深度强化学习制导律,它直接将交战状态信息映射为拦截弹的指令加速度,是一种端到端、无模型的制导策略。首先,将攻防双方的交战运动学模型描述为适用于深度强化学习算法的马尔科夫决策过程,之后通过合理地设计算法训练所需的交战场景、动作空间、状态空间和网络结构,并引入奖励函数整形和状态随机初始化,构建了完整的深度强化学习制导算法。仿真结果表明:与比例导引和增强比例导引两种方案相比,深度强化学习制导策略在脱靶量更小的同时能够降低对中制导精度的要求;具有良好的鲁棒性和泛化能力,并且计算负担较小,具备在弹载计算机上运行的条件。  相似文献   

4.
面向火箭结构健康监测,提出了一种基于深度学习的损伤检测方法,直接将多个通道的振动数据作为输入,并基于由长短时记忆网络LSTM(Long Short-Term Memory Networks)和残差卷积神经网络ResNet(Residual Convolutional Neural Networks)组合而成的LSTM-ResNet网络进行损伤识别。其优点在于,首先利用LSTM提取信号的时间依赖特征,减轻了由某些通道信号缺失带来的影响,再利用ResNet在不损耗特征的情况下进一步提取空间特征,提高了训练效率和损伤辨识准确性。通过充液圆筒振动放水实验模拟火箭飞行状态下的燃料消耗,并基于自主构建的数据集和公用数据集对LSTM-ResNet、LSTM、ResNet以及ResNet-LSTM网络进行了训练,训练结果表明,LSTM-ResNet组合网络无论在传感器是否存在故障的情况下都具有更好的性能,损伤检测精度更高。  相似文献   

5.
一种基于迁移学习的遥测数据异常检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
陈俊夫  皮德常  张强 《宇航学报》2021,42(4):522-530
为解决卫星遥测数据异常检测面临的数据不平衡且缺乏有标签样本的问题,提出一种基于一维卷积神经网络(1dCNN)迁移学习的异常检测方法。首先利用源域卫星的遥测数据对1dCNN进行预训练,使得模型的卷积层具有卫星状态特征的提取能力;然后将训练好的模型迁移到缺乏标签数据的目标域卫星中;利用目标域有标签样本对预训练模型进行微调,从而实现了对目标域测试集样本的异常检测。为了使1dCNN能够适应遥测数据样本的不平衡性,引入了代价敏感训练策略,建立动态损失函数,从而提升代价敏感一维卷积神经网络(cs 1dCNN)对于异常样本的识别能力。以某两个卫星的电源分系统遥测数据进行了验证,实验结果表明该异常检测迁移方法具有较好的有效性和鲁棒性。  相似文献   

6.
黄腾超  宋爽  祝青园 《遥测遥控》2023,44(5):113-118
在自动驾驶仿真领域,虚拟传感器输出数据的精准度是仿真结果可靠性的重要保障。激光雷达(LiDAR)作为车辆环境感知的关键传感器,其采集的点云数据的准确性是实现车辆对三维环境理解的关键。但在虚拟环境中,通过3D渲染技术模拟的点云数据难以真实反映传感器在复杂工况下的变化规律。本文提出一种用于自动驾驶仿真的虚拟LiDAR传感器建模方法。该方法首先基于Unity 3D引擎构建LiDAR的几何测量模型。其次,结合真实传感器的衰变特性推导简化的LiDAR物理模型。最后,基于蒙特卡罗方法在随机模型上对仿真数据进行噪声模拟,从而实现高保真的LiDAR数据输出。所提出的方法可结合精细化的虚拟场景进行数据验证,实验结果表明:该方法能够有效地在虚拟环境下模拟LiDAR数据,从而应用于自动驾驶仿真算法验证过程。  相似文献   

7.
针对多无人机任务决策方法研究中传统优化算法难以在短时间内得到期望结果的问题,基于深度强化学习提出一种无人机多智能体深度确定性策略梯度(MADDPG)算法,通过允许无人机在学习时使用全局信息,在应用决策的时候只使用局部信息的方法,从网络结构、状态空间、动作空间和奖励函数设计了MADDPG算法的模型结构。最后通过仿真实验,并对比深度确定性策略梯度(DDPG)算法,验证了本文提出的MADDPG算法在保证精度的基础上,学习速度大幅度提高,弥补了传统强化学习算法在多智能体领域的不足。  相似文献   

8.
针对空间非合作目标姿态测量问题,提出一种基于卷积神经网络的非合作目标姿态视觉测量方法。该方法先设计特征提取网络并利用公开数据集进行预训练,用少量实际目标图像进行迁移学习,实现非合作目标图像高层抽象特征的自动提取;再设计基于回归模型的姿态映射网络,建立图像高层特征与三轴姿态角之间的非线性关系,实现非合作目标的姿态测量。实验验证了两类特征提取网络测量精度和参数量大小,测量精度可达 0.711° (1σ),表明了“单目相机+卷积神经网络”方法的可行性。  相似文献   

9.
基于深度强化学习策略,研究了一类变体飞行器外形自主优化问题。以一种抽象化的变体飞行器为对象,给出其外形变化公式与最优外形函数等。结合深度学习与确定性策略梯度强化学习,设计深度确定性策略梯度(DDPG)学习步骤,使飞行器经过训练学习后具有较高的自主性和环境适应性,提高其在战场上的生存、应变和攻击能力。仿真结果表明,训练过程收敛较快,训练好的深度网络参数可以使飞行器在整个飞行任务过程中达到最优气动外形。  相似文献   

10.
裴培  何绍溟  王江  林德福 《宇航学报》2021,42(10):1293-1304
研究了一种基于深度强化学习理论的制导控制一体化算法。不同于传统的制导控制一体化算法和制导控制回路分开设计的方法,基于深度强化学习理论的制导控制一体化算法利用深度学习强化算法生成一个智能体,智能体根据导弹的观测量生成舵偏角控制指令准确拦截目标。首先将制导控制问题转化为一个马尔可夫决策过程,然后提出了一个权衡制导精度、能量损耗和飞行时间的奖励函数,将制导控制问题转化到强化学习问题的框架中。最后采用深度确定性策略梯度算法,求解提出的强化学习问题,训练得到制导控制智能体,智能体根据导弹观测量生成舵偏角指令。通过进行大量的数值模拟,验证了提出的制导控制一体化算法的有效性和鲁棒性。  相似文献   

11.
提出一种航天器反应式碎片规避动作规划方法,首先以扰动流体动态系统(IFDS)算法作为动作规划的基础算法,通过其中的总和扰动矩阵对航天器的轨道速度矢量进行修正,实现轨道机动规避;然后,建立基于双延迟深度确定性策略梯度(TD3)深度强化学习算法的反应式动作规划方法,通过TD3在线优化IFDS规划参数,实现对碎片群的“状态-动作”最优、快速规避决策。在此基础上,将优先级经验回放和渐进式学习策略引入该方法中,提升训练效率。最后,仿真结果表明,所提方法可使航天器安全规避多发、突发、动态且形状各异的空间碎片群,且具有较好的实时性。  相似文献   

12.
基于深度学习的目标检测框架组件研究   总被引:2,自引:2,他引:0       下载免费PDF全文
深度学习与计算机视觉的结合给目标检测研究领域带来了全新的检测模式,通过对基于深度学习的目标检测网络分析研究,目标检测网络框架可模块化地拆分为特征提取网络、多尺度融合和预测网络三个部分。从组成目标检测网络模块化的角度对各个模块进行了详细的分析综述,并给出了如何根据实际需求来构建适合的模型框架建议,为基于深度学习的目标检测方法研究提供参考。  相似文献   

13.
王华  刘向东 《航天控制》2005,23(2):21-26
将再励学习引入模糊神经网络的T-S模型,建立了模糊神经网络控制器和控制评估网络的再励学习算法,并应用于三轴稳定卫星的姿态控制。这种再励模糊神经网络不需要精确的卫星数学模型和学习样本,通过再励学习实现控制网络/评估网络参数的在线调节,具有比较强的适应性和学习能力。仿真结果表明,这种智能控制方法可以有效解决卫星的模型不确定性问题,提高了卫星姿态控制的精度和鲁棒性。  相似文献   

14.
刘宇航  杨洪伟  李爽 《宇航学报》2022,43(5):593-602
针对变比冲小推力轨迹间接优化中的协态变量初值猜测问题,提出了一种基于机器学习的协态变量初值高精度高效估计方法。首先,基于标称最优轨迹延拓,建立了状态量边值高扰动上限情形下的数据集生成方法,并分析了扰动上限对求解效率的影响。然后,构建了基于位置速度、轨道根数和改进春分点轨道根数多形式状态量组合输入的人工神经网络(ANN)映射关系,分析并优化了神经网络结构。将提出的方法应用于深空探测小推力转移场景,仿真结果表明该方法相对于标称轨迹直接扰动的数据集生成方法及单一形式状态量输入的人工神经网络映射方法,均有效地提升了求解收敛率,能够高效高精度地估计协态变量初值,实现轨迹快速优化。  相似文献   

15.
为提高导弹在攻击角度约束下对目标的打击效能,提出了一种基于深度确定性策略梯度算法的分布式强化学习制导策略。为了最大限度地减小攻击角度误差,设计了一种新的奖励函数,使导弹在满足视场角约束的同时,视线角向期望值收敛。此外,为了增强强化学习模型的泛化能力,提出了一种分布式探索策略,提高了模型训练过程中对环境的探索效率。仿真结果验证了所提出的分布式强化学习制导方法能够在固定攻击角度约束下实现对目标的精准打击。与传统制导律相比,所提制导方法的攻击角度误差更小,收敛速度更快。  相似文献   

16.
康国华  金晨迪  郭玉洁  乔思元 《宇航学报》2019,40(11):1322-1331
利用模型预测算法先预测控制结果后控制的类人行为特点,借助深度学习在多参数寻优上的优势,提出了一种基于卷积神经网络的模型预测控制算法,满足航天工程低硬件需求,实现组合航天器多场景下姿态控制律的重构。该算法首先利用模型预测控制将组合航天器从初始状态控制到预期状态,然后将控制过程中状态量用于3层3核卷积神经网络的训练,训练完成后,用该卷积神经网络代替模型预测对组合航天器进行控制,从而降低计算资源需求。仿真校验表明:该算法可预测5个控制周期内的控制参数,相比传统模型预测算法所需硬件计算时间降低约5倍,在一般硬件环境下30 s内即可完成各场景下的组合航天器姿态控制,控制精度在10 -4 量级。  相似文献   

17.
为解决雷达辐射源识别中特征提取困难、低信噪比条件下识别效率低的问题,提出了一种基于一维卷积神经网络和长短期记忆网络的深度学习智能识别算法,构建了一个CNN?LSTM网络,能实现对不同脉内调制方式雷达辐射源的端到端识别。该网络首先利用卷积层学习信号局部特征,然后将卷积层输出的结果输入长短期记忆网络,学习信号的全局特征,最终构造逻辑回归分类完成分类识别任务。仿真结果表明,该算法较单一卷积神经网络模型具有更好的识别效果,抗噪声效果更强,在-6 dB信噪比的条件下,识别的准确率仍能够达到90%以上。  相似文献   

18.
颜鹏  郭继峰  白成超 《宇航学报》2022,43(8):1040-1051
针对现有方法难以预测出符合飞行移动目标不确定行为方式轨迹的问题,提出基于逆强化学习的飞行移动目标轨迹预测方法,通过学习目标行为偏好以及模拟目标行为决策过程的方式预测目标的移动轨迹。首先基于深度神经网络建立目标的行为决策模型与行为偏好模型,然后通过最大熵逆强化学习方法交替地学习模型参数。为了有效地学习目标的不确定行为特征,采用监督学习的方法学习出目标示例轨迹概率分布模型,用于指导目标行为偏好模型的训练以及初始化目标行为决策模型,同时通过对目标行为偏好模型进行预训练的方式提高其训练质量。仿真结果表明,提出的飞行移动目标轨迹预测方法可通过学习到的目标行为决策模型较为准确地模拟目标的行为方式,预测的目标轨迹分布与真实的目标轨迹分布在Kullback Leibler(KL)散度下的相似度可达0.24。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号