平均报酬模型的多步强化学习算法被引量：4

Model-Free Average Reward Multi-step Reinforcement Learning

出　　处：《控制理论与应用》2000年第5期660-664,共5页Control Theory & Applications

基　　金：国家自然科学基金!(6 96 740 0 5 )

摘　　要：讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例 .仿真结果表明 ,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高 .Two model free multi step average reward reinforcement learning algorithms, R(λ) learning and TTD(λ) learning, are proposed. Two novel incremental algorithms incorporate the R learning with the temporal differences TD(λ) learning algorithm for average reward problems. They are also the natural extensions of the counterpart algorithms for discounted reward reinforcement learning into the average reward cases. Simulation results show that R(λ) learning and \{TTD(λ) learning\} with intermediate values of λ have much better performance than the simple R learning.

关键词：R学习强化学习算法平均报酬模型机器学习

分类号：TP18[自动化与计算机技术—控制理论与控制工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

平均报酬模型的多步强化学习算法被引量：4

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

平均报酬模型的多步强化学习算法 被引量：4

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

平均报酬模型的多步强化学习算法被引量：4