检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王宇琨 王泽 董力维 李妮[1] Wang Yukun;Wang Ze;Dong Liwei;Li Ni(School of Automation Science and Electrical Engineering,Beihang University,Beijing 100191,China)
机构地区:[1]北京航空航天大学自动化科学与电气工程学院,北京100191
出 处:《系统仿真学报》2023年第10期2249-2261,共13页Journal of System Simulation
摘 要:针对多机空战对抗场景中高维状态-行为空间约束下兵力博弈决策困难的问题,采用基于深度强化学习的兵力智能体决策生成策略,提出面向兵力智能博弈的态势认知和奖励回报生成算法,构建基于混合的智能建模方法的行为建模分层框架。解决了强化学习过程中存在的稀疏奖励技术难点,为解决大规模、多机型、要素多的空战问题提供一种可行的强化学习训练方法。In response to the problem of the difficulty of decision-making in the game of force under the constraints of high-dimensional state-space in multi-machine air combat confrontation scenarios,a force intelligent agent decision-making generation strategy based on deep reinforcement learning is adopted.The developing situational cognition and reward feedback generation algorithms for force intelligent game are proposed,a behavior modeling hierarchical framework based on hybrid intelligence modeling method is constructed,which solve the technical difficulty of sparse reward in the reinforcement learning process.It provides an feasible reinforcement learning training method that can solve the large-scale,multi-model,and multi-element air combat problems.
关 键 词:作战仿真 多智能体 深度强化学习 非稀疏奖励函数
分 类 号:TP391.9[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229