检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:周鑫[1] 刘全[1,2] 傅启明[1] 肖飞[1]
机构地区:[1]苏州大学计算机科学与技术学院,苏州215006 [2]符号计算与知识工程教育部重点实验室(吉林大学),长春130012
出 处:《计算机科学》2014年第9期232-238,共7页Computer Science
基 金:国家自然科学基金项目(61070223;61103045;61070122;61272005;61303108);江苏省自然科学基金(BK2012616);江苏省高校自然科学研究项目(09KJA520002;09KJB520012;13KJB520020);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)资助
摘 要:策略迭代是一种迭代地评估和改进控制策略的强化学习方法。采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性。针对在线的最小二乘策略迭代方法对样本数据的利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代算法(BLSPI),并从理论上证明其收敛性。BLSPI算法将批量更新方法与在线最小二乘策略迭代方法相结合,在线保存生成的样本数据,多次重复使用这些样本数据并结合最小二乘方法来更新控制策略。将BLSPI算法用于倒立摆实验平台,实验结果表明,该算法可以有效利用之前的经验知识,提高经验利用率,加快收敛速度。Policy iteration is a reinforcement learning method which evaluates and improves the control policy iteratively. Policy evaluation with the least-square method can extract more useful information from the empirical data and improve the data validity. For the low empirical utilization rate of online least-squares policy iteration method which uses each sample only once, a batch least-squares policy iteration (BLSPI) method was proposed and its convergence was proved in theory, BLSPI method combines online least-squares policy iteration method and batch updating method, stores the generated samplesonline and reuses these samples with least-squares methods to update the control policy. We applied the BLSPI method to the inverted pendulum system, and the experiment results show that the method can effectively utilize the previous experience and knowledge, improve the empirical utilization rate, and accelerate the convergence speed.
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.31