检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:孙彧 李清伟 徐志雄 陈希亮 SUN Yu;LI Qingwei;XU Zhixiong;CHEN Xiliang(Unit 31102 of PLA,Nanjing 210000,China;Command and Control Engineering College,Army Engineering University,Nanjing 210007,China;The 28th Research Institute of China Electronics Technology Group Corporation,Nanjing 210007,China;Army Academy of Border and Coastal Defence,Xi'an 710100,China)
机构地区:[1]解放军31102部队,南京210000 [2]陆军工程大学指挥控制工程学院,南京210007 [3]中国电子科技集团公司第二十八研究所,南京210007 [4]陆军边海防学院,西安710100
出 处:《指挥信息系统与技术》2021年第2期16-20,共5页Command Information System and Technology
基 金:国家自然科学基金(61806221);国防科技创新特区163计划(1916311LZ00100301);装备发展部“十三五”预研课题(31505550302);国防科技重点实验室基金(6142101180304)资助项目。
摘 要:鉴于多智能体深度强化学习在解决蜂群系统、能源分配和大型团队策略游戏等高维复杂动作空间以及多智能体决策问题中的良好表现,提出了一种基于多智能体深度强化学习的空战博弈对抗策略训练模型。在对多智能体深度强化学习基本概念和对空战策略生成的可行性分析的基础上,建立了基于多智能体马尔可夫决策过程空战配合策略的框架,从而生成最优对抗策略。实践表明,该模型可生成多种双机联合对抗策略,具有较高的研究价值和实际意义。In view of the good performance of multi-agent deep reinforcement learning in solving the high-dimensional complex action space and multi-agent decision problems,such as the swarm systems,the energy distribution and the large team strategy games,a game confrontation strategy training model for air combat based on multi-agent deep reinforcement learning is proposed.Based on the analysis of the basic concept of multi-agent deep reinforcement learning and the feasibility of air combat strategy generation,the air combat coordination strategy framework of multi-agent Markov decision process is established to generate the optimal confrontation strategy.The practice shows that the model can generate a variety of dual-fighters joint confrontation strategies,thus has high research value and practical significance.
关 键 词:多智能体深度强化学习 多智能体马尔可夫决策 空战博弈对抗 战术决策
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.127