检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王立佳 朱正伟[1] 诸燕平[1] 朱晨阳[1] WANG Li-jia;ZHU Zheng-wei;ZHU Yan-ping;ZHU Chen-yang(Aliyun School of Big Data,Changzhou University,Changzhou Jiangsu 213000,China)
机构地区:[1]常州大学阿里云大数据学院,江苏常州213000
出 处:《计算机仿真》2023年第4期341-345,406,共6页Computer Simulation
基 金:国家自然科学基金(61801055);2021年常州市第十三批科技计划(应用基础研究)(CJ20210123)。
摘 要:针对多目标强化学习中的多策略算法收敛不稳定的问题,提出了一种基于Sarsa算法框架的多目标帕累托Sarsa算法(Multi-Pareto Sarsa, MPS)。MPS算法以向量集的形式更新行为价值,使用一种新的基于投票法的集合评估机制代替传统的行为策略,智能体通过基于投票法的集合评估机制评估行为空间中每个行为对应的行为价值向量集,然后根据评估结果选择当前状态下的最优行为。实验结果表明,MPS算法与已有的MPQ、PQL算法相比有较好的收敛性,且MPS算法与MPQ算法相比在超体积性能上有很大的提升。To solve the problem of unstable convergence of multi-policy algorithms in multi-objective reinforcement learning,this paper proposes a multi-objective Sarsa algorithm based on the standard Sarsa algorithm framework(Multi-Pareto Sarsa,MPS).The MPS algorithm updates the behavior value in the form of vector sets,and uses a new voting-based set evaluation mechanism to replace the traditional behavior strategy.The agents use a votingbased set evaluation mechanism to evaluate the behavior value vector set corresponding to each action in the action space.Then the agents select the best behavior in the current state according to the evaluation result.The experimental results show that the MPS algorithm has better convergence than the existing MPQ and PQL algorithms,and the MPS algorithm has a great improvement in hypervolume performance compared with the MPQ algorithm.
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28