一个因素化SARSA(λ)激励学习算法被引量：8

A FACTORED SARSA(λ)ALGORITHM OF REINFORCEMENT LEARNING

机构地区：[1]长沙电力学院数学与计算机系,长沙410077 [2]长沙交通学院网络中心,长沙410076

出　　处：《计算机研究与发展》2001年第1期88-92,共5页Journal of Computer Research and Development

摘　　要：基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问题 .Based on the factored representation of a state, a new SARSA( λ ) algorithm is proposed. The main principle of the algorithm is that a heuristics on the state similarities can be gained from the features of the state, and according to the heuristics, the state space is aggregated, significantly reducing the searching and computing complexity for the state space. Therefore the algorithm is a promise for solving large scale MDPs problems which are of a huge state space.

关键词：激励学习状态聚类 MDPs SARSA(λ)学习

分类号：TP18[自动化与计算机技术—控制理论与控制工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一个因素化SARSA(λ)激励学习算法被引量：8

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一个因素化SARSA(λ)激励学习算法 被引量：8

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一个因素化SARSA(λ)激励学习算法被引量：8