检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京审计学院信息科学学院,南京211815 [2]东南大学计算机科学与工程学院,南京210096
出 处:《计算机科学》2010年第12期186-189,共4页Computer Science
基 金:国家自然科学基金项目(70971067;60905002);江苏省高校自然科学重大基础研究项目(08KJA520001);江苏省六大人才高峰项目(2007148)资助
摘 要:近年来强化学习中的策略梯度方法以其良好的收敛性能吸引了广泛的关注。研究了平均模型中的自然梯度算法,针对现有算法估计梯度时效率较低的问题,在梯度估计的值函数逼近中采用了TD(λ)方法。TD(λ)中的资格迹使学习经验的传播更加高效,从而能够降低梯度估计的方差,提升算法的收敛速度。车杆平衡系统仿真实验验证了所提算法的有效性。In recent years,policy gradient methods arouse extensive interests in reinforcement learning with its excellent convergence property.Natural gradient algorithms were investigated in this paper.To resolve the problem of low efficiency when estimating the gradient in present algorithms,TD(λ) method was used to approximate the value functions when estimating the gradient.The eligibility traces in TD(λ) make the propagation of learning experience more efficient.As a result,the variance in gradient estimation can be decreased and the convergence speed can be improved.The simulation experiment in cart-pole balancing system demonstrates the effectiveness of the algorithm.
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.148.201.19