检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]长沙电力学院数学与计算机系,长沙410077 [2]长沙交通学院网络中心,长沙410076
出 处:《计算机工程与应用》2002年第1期65-68,共4页Computer Engineering and Applications
基 金:国家自然科学基金;湖南省教育厅科研基金
摘 要:取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验。The assumption of unichain or communicating MDPs in average-reward reinforcement learning has been taken off.The classical methods of average -reward reinforcement learning are generalized with eligibility traces and discounted SARSA(λ)algorithm.A class of generalized algorithms for the average -reward reinforcement learning is proposed,and preliminary empirical results are presented to compare the performance of these new algorithms.
关 键 词:激励学习 MARKOV决策过程 平均奖赏 有效跟踪
分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117