基于TD(λ)的自然梯度强化学习算法被引量：2

Natural Gradient Reinforcement Learning Algorithm with TD(λ)

机构地区：[1]南京审计学院信息科学学院,南京211815 [2]东南大学计算机科学与工程学院,南京210096

出　　处：《计算机科学》2010年第12期186-189,共4页Computer Science

基　　金：国家自然科学基金项目(70971067;60905002);江苏省高校自然科学重大基础研究项目(08KJA520001);江苏省六大人才高峰项目(2007148)资助

摘　　要：近年来强化学习中的策略梯度方法以其良好的收敛性能吸引了广泛的关注。研究了平均模型中的自然梯度算法,针对现有算法估计梯度时效率较低的问题,在梯度估计的值函数逼近中采用了TD(λ)方法。TD(λ)中的资格迹使学习经验的传播更加高效,从而能够降低梯度估计的方差,提升算法的收敛速度。车杆平衡系统仿真实验验证了所提算法的有效性。In recent years,policy gradient methods arouse extensive interests in reinforcement learning with its excellent convergence property.Natural gradient algorithms were investigated in this paper.To resolve the problem of low efficiency when estimating the gradient in present algorithms,TD（λ） method was used to approximate the value functions when estimating the gradient.The eligibility traces in TD（λ） make the propagation of learning experience more efficient.As a result,the variance in gradient estimation can be decreased and the convergence speed can be improved.The simulation experiment in cart-pole balancing system demonstrates the effectiveness of the algorithm.

关键词：策略梯度自然梯度 TD(λ) 资格迹

分类号：TP181[自动化与计算机技术—控制理论与控制工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于TD(λ)的自然梯度强化学习算法被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于TD(λ)的自然梯度强化学习算法 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于TD(λ)的自然梯度强化学习算法被引量：2