平均报酬模型的多步强化学习算法  被引量:4

Model-Free Average Reward Multi-step Reinforcement Learning

在线阅读下载全文

作  者:胡光华[1] 吴沧浦[1] 

机构地区:[1]北京理工大学自动控制系,北京100081

出  处:《控制理论与应用》2000年第5期660-664,共5页Control Theory & Applications

基  金:国家自然科学基金!(6 96 740 0 5 )

摘  要:讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例 .仿真结果表明 ,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高 .Two model free multi step average reward reinforcement learning algorithms, R(λ) learning and TTD(λ) learning, are proposed. Two novel incremental algorithms incorporate the R learning with the temporal differences TD(λ) learning algorithm for average reward problems. They are also the natural extensions of the counterpart algorithms for discounted reward reinforcement learning into the average reward cases. Simulation results show that R(λ) learning and \{TTD(λ) learning\} with intermediate values of λ have much better performance than the simple R learning.

关 键 词:R学习 强化学习算法 平均报酬模型 机器学习 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象