基于DQN的单一飞行员驾驶模式分布式多智能体联盟任务分配策略  

Distributed multi-agent coalition task allocation strategy for single pilot operation mode based on DQN

在线阅读下载全文

作  者:董磊[1,2,3] 陈泓兵 陈曦 赵长啸[1,2,3] DONG Lei;CHEN Hongbing;CHEN Xi;ZHAO Changxiao(Key Laboratory of Civil Aircraft Airworthiness Technology,Civil Aviation University of China,Tianjin 300300,China;Civil Aircraft Airworthiness and Repair Key Laboratory of Tianjin,Civil Aviation University of China,Tianjin 300300,China;College of Safety Science and Engineering,Civil Aviation University of China,Tianjin 300300,China)

机构地区:[1]中国民航大学民航航空器适航审定技术重点实验室,天津300300 [2]中国民航大学天津市民用航空器适航与维修重点实验室,天津300300 [3]中国民航大学安全科学与工程学院,天津300300

出  处:《航空学报》2023年第13期175-190,共16页Acta Aeronautica et Astronautica Sinica

基  金:国家重点研发计划(2021YFB1600600);天津市教委科研计划项目(2022KJ058);中央高校基本科研业务费项目中国民航大学专项资助(3122022044);中国民航大学研究生科研创新资助项目(2021YJS011)。

摘  要:分布式任务决策是提高单一飞行员驾驶(SPO)模式分布式协同飞行组织架构多智能体系统自主性的关键。以多智能体协作执行复杂任务为背景,首先构建了一种考虑任务载荷资源需求、智能体资源空间限制以及执行窗口等多约束条件的SPO模式分布式多智能体联盟任务分配决策模型;其次,对Q-估值网络函数逼近器进行了设计,提出了基于深度Q网络(DQN)的联盟任务分配方法,选择有效智能体生成最优联盟任务分配结果的最佳执行路径,使联盟中各智能体能够以更加自适应的方式实现调度优化;最后通过数值仿真,验证了DQN方法求解复杂约束条件下SPO模式多智能体联盟任务分配问题的有效性和快速性。Distributed decision-making is essential for increasing the autonomy of multi-agent system in the distributed coordinated flight organization structure of Single Pilot Operation(SPO)mode.A coalition task assignment decision model of distributed multi-agent for SPO mode is built on the background of multi-agent collaboration for the execution of complicated tasks,taking into account several constraints such as task load resource requirements,agent resource space,and time windows.Then,we design a function approximation of a Q-valued network,and propose a coalition task allocation algorithm based on Deep Q-Network(DQN)that generates the best execution path of the optimal coali⁃tion task allocation results,allowing each agent in the coalition to achieve scheduling optimization in a more adaptive manner.The efficiency and speed of the DQN algorithm in addressing multi-agent coalition task allocation for the SPO mode under complex constraints are confirmed through numerical simulation.

关 键 词:单一飞行员驾驶 多智能体系统 任务分配 联盟生成 深度强化学习 神经网络 

分 类 号:V323.11[航空宇航科学与技术—人机与环境工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象