一类基于有效跟踪的广义平均奖赏激励学习算法  被引量:1

A Class of Generalized Algorithms of Average-Reward Reinforcement Learning Based on Eligibility Traces

在线阅读下载全文

作  者:陈焕文[1] 谢建平[2] 

机构地区:[1]长沙电力学院数学与计算机系,长沙410077 [2]长沙交通学院网络中心,长沙410076

出  处:《计算机工程与应用》2002年第1期65-68,共4页Computer Engineering and Applications

基  金:国家自然科学基金;湖南省教育厅科研基金

摘  要:取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验。The assumption of unichain or communicating MDPs in average-reward reinforcement learning has been taken off.The classical methods of average -reward reinforcement learning are generalized with eligibility traces and discounted SARSA(λ)algorithm.A class of generalized algorithms for the average -reward reinforcement learning is proposed,and preliminary empirical results are presented to compare the performance of these new algorithms.

关 键 词:激励学习 MARKOV决策过程 平均奖赏 有效跟踪 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象