基于拓扑序列更新的值迭代算法  被引量:1

Optimized algorithm for value iteration based on topological sequence backups

在线阅读下载全文

作  者:黄蔚[1] 刘全[1,2] 孙洪坤[1] 傅启明[1] 周小科[1] 

机构地区:[1]苏州大学计算机科学与技术学院,江苏苏州215006 [2]吉林大学符号计算与知识工程教育部重点实验室,吉林长春130012

出  处:《通信学报》2014年第8期56-62,共7页Journal on Communications

基  金:国家自然科学基金资助项目(61070223;61103045;61272005;61170020);江苏省自然科学基金资助项目(BK2012616);江苏省高校自然科学研究基金资助项目(09KJA520002;09KJB520012);吉林大学符号计算与知识工程教育部重点实验室基金资助项目(93K172012K04)~~

摘  要:提出一种基于拓扑序列更新的值迭代算法,利用状态之间的迁移关联信息,将任务模型的有向图分解为一系列规模较小的强连通分量,并依据拓扑序列对强连通分量进行更新。在经典规划问题Mountain Car和迷宫实验中的结果表明,算法的收敛速度更快,精度更高,且对状态空间的增长有较强的顽健性。In order to improve the convergence performance, an optimized value iteration based on topological sequence backups, VI-TS, is proposed. The key idea of VI-TS is to circumvent the problem of unnecessary backups by dividing an MDP into strongly-connected components and solving these components in topological sequences after detecting the structure of MDP. The experiment results show that VI-TS has a better convergence performance and robustness for state space growth when applied to classical planning experiment scenarios.

关 键 词:强化学习 值迭代 拓扑序列 VI-TS 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象