检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘佳楠 于洋[1] 赵亚威[1] LIU Jianan;YU Yang;ZHAO Yawei
机构地区:[1]沈阳理工大学,辽宁沈阳110159
出 处:《信息技术与信息化》2023年第6期114-117,共4页Information Technology and Informatization
摘 要:针对指挥训练系统所面临的科目越来越复杂,所需要协调的人员越来越庞大,而且对场景的逼真程度要求越来越高,需要多方各级指挥员的参与才能进行训练的问题,提出了一种基于逆向强化学习的方法。首先,通过机器学习得到基于专家数据的潜在回报函数;其次,将回报函数作为轨迹生成训练的奖励函数,利用DDPG网络进行强化学习,训练最优轨迹生成网络模型,使其能够综合众多专家的策略部署能力;最后,对提出的方法在SC2LE平台进行验证,通过对比不同回报函数的训练收敛效果与实际生成策略得分能力来证明了算法的有效性。
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222