排序方式: 共有1条查询结果,搜索用时 15 毫秒
1
1.
针对高速飞行器与拦截器的攻防博弈问题,研究了一种基于双深度Q网络(DDQN)的改进算法。该算法针对经典DDQN样本利用效率低的问题,设置多个经验池,并将一轮对抗中Q值的累积时序差分误差(TD-error)与累积奖励值相结合,通过模糊推理计算样本存储至不同经验池中的概率。再根据累积奖励的时序差分误差设计积分抽样器,从不同经验池中抽取样本进行训练。模型的奖励函数设计原则为在成功突防的基础上减少自身机械能消耗。实验结果表明,相比于经典DDQN算法,改进算法能够有效提高样本利用效率,为解决高速飞行器机动突防问题提供了一种新思路。 相似文献
1