基于探索区域扩张策略的Q-学习算法

Q-Learning Algorithm Based on Exploration Region Expansion Policy

机构地区：[1]中国民用航空学院机器人研究所,天津300300 [2]东北电力学院自动化学院,吉林132012

出　　处：《中国民航学院学报》2006年第1期32-35,共4页Journal of Civil Aviation University of China

基　　金：国家863计划资助项目(2002AA735041)

摘　　要：针对Q-学习算法中探索与利用之间的平衡问题,在基于Metropolis准则的Q-学习的基础上,提出了基于探索区域扩张策略的Q-学习改进算法,消除了初始时刻在整个环境中加入探索的盲目性,提高了学习效率。通过加入算法的自主学习结束条件,避免了找到最优路径后的重复学习,节省了学习时间。仿真实验证明了该算法的有效性。The balance between exploration and exploitation is one of the key problems in Q-learning algorithm. An improved Q-learning algorithm based on exploration region expansion policy is proposed on the basis of Metropolis-based Q-learning. The blindness of exploration in the entire environment is eliminated and the efficiency of learning is increased. Through an automatic termination condition, the redundant learning after finding optimal path is avoided and the time of learning is reduced. The validity of the algorithm is proved by simulation experiment.

关键词：Q-学习 METROPOLIS准则探索区域扩张模拟退火

分类号：TP242.6[自动化与计算机技术—检测技术与自动化装置]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于探索区域扩张策略的Q-学习算法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于探索区域扩张策略的Q-学习算法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索