检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:何兆一 刘海颖[1,2] 黄魁华 程光权[3] HE Zhao-Yi;LIU Hai-Ying;HUANG Kui-Hua;CHENG Guang-Quan(College of Astronautics,Nanjing University of Aeronautics and Astronau-tics,Nanjing Jiangsu 210016,China;Nanjing Center for Applied Mathe-matics,Nanjing Jiangsu 211135,China;College of Systems Engineering,National University of Defense Technology,Changsha Hunan 410073,China)
机构地区:[1]南京航空航天大学航天学院,江苏南京210016 [2]南京应用数学中心,江苏南京211135 [3]国防科技大学系统工程学院,湖南长沙410073
出 处:《指挥与控制学报》2022年第1期44-49,共6页Journal of Command and Control
基 金:装备预先研究基金(50912020401);国家自然科学基金(62073333)资助。
摘 要:面向联合全域作战,提出了一种海上无人集群防御系统行动单元协同行动的场景.在深度强化学习方法的基础上提出一种应用于异构集群的多智能体深度确定性策略梯度算法.并对算法模型的状态空间、动作空间以及奖励函数进行设计,采用集中训练、分散执行的框架帮助智能体快速学到协同防御行为.针对此场景进行了仿真实现,验证了经学习后的行动单元具备协同作战能力,使作战过程更具智能化.For Joint all-domain operations,this paper proposes a scenario for cooperative operations of maritime unmanned cluster defense systems.Based on deep reinforcement learning,a heterogeneous cluster multi-agent deep deterministic policy gradient(MADDPG)algorithm is proposed.On this basis,the model structure of MADDPG algorithm is designed from the aspects of state space,action space and reward function.The framework of centralized training and decentralized execution allows agents learn collaborative behavior quickly.This paper carried out a simulation for this scenario,and verified that the learned combat unit has the ability to cooperate in combat,making the combat process more intelligent.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49