摘 要: | 提出了一种基于强化学习算法的多星协同任务规划方法。该方法将多星协同任务规划视为多个双星协同规划,采用相邻双星锁定的方式来共享双星任务规划结果信息,基于A2C(优势动作评价)强化学习算法对双星任务规划的结果进行再调整。针对多星协同任务规划状态空间复杂且变化的问题,设计了两级状态空间和价值评价函数决策的方法,对强化学习所依赖的状态空间进行维度限制,确保智能体对任务进行调整的过程不影响状态空间维度。算法设计过程考虑了多种约束条件,设置了天气、成像质量和成像优先级等可调参数作为强化学习A2C算法的评价参数,这些可调参数有助于用户自定义决策评价体系。最后,通过仿真验证了算法的可行性。仿真结果表明,该算法多星协同任务规划的组合任务抛弃率小于10%。
|