一种批量最小二乘策略迭代方法  被引量:9

Batch Least-squares Policy Iteration

在线阅读下载全文

作  者:周鑫[1] 刘全[1,2] 傅启明[1] 肖飞[1] 

机构地区:[1]苏州大学计算机科学与技术学院,苏州215006 [2]符号计算与知识工程教育部重点实验室(吉林大学),长春130012

出  处:《计算机科学》2014年第9期232-238,共7页Computer Science

基  金:国家自然科学基金项目(61070223;61103045;61070122;61272005;61303108);江苏省自然科学基金(BK2012616);江苏省高校自然科学研究项目(09KJA520002;09KJB520012;13KJB520020);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)资助

摘  要:策略迭代是一种迭代地评估和改进控制策略的强化学习方法。采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性。针对在线的最小二乘策略迭代方法对样本数据的利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代算法(BLSPI),并从理论上证明其收敛性。BLSPI算法将批量更新方法与在线最小二乘策略迭代方法相结合,在线保存生成的样本数据,多次重复使用这些样本数据并结合最小二乘方法来更新控制策略。将BLSPI算法用于倒立摆实验平台,实验结果表明,该算法可以有效利用之前的经验知识,提高经验利用率,加快收敛速度。Policy iteration is a reinforcement learning method which evaluates and improves the control policy iteratively. Policy evaluation with the least-square method can extract more useful information from the empirical data and improve the data validity. For the low empirical utilization rate of online least-squares policy iteration method which uses each sample only once, a batch least-squares policy iteration (BLSPI) method was proposed and its convergence was proved in theory, BLSPI method combines online least-squares policy iteration method and batch updating method, stores the generated samplesonline and reuses these samples with least-squares methods to update the control policy. We applied the BLSPI method to the inverted pendulum system, and the experiment results show that the method can effectively utilize the previous experience and knowledge, improve the empirical utilization rate, and accelerate the convergence speed.

关 键 词:强化学习 批量更新 最小二乘 策略迭代 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象