基于探索区域扩张策略的Q-学习算法  

Q-Learning Algorithm Based on Exploration Region Expansion Policy

在线阅读下载全文

作  者:胡丹丹[1] 贺振东[2] 刘洁[2] 高庆吉[1] 

机构地区:[1]中国民用航空学院机器人研究所,天津300300 [2]东北电力学院自动化学院,吉林132012

出  处:《中国民航学院学报》2006年第1期32-35,共4页Journal of Civil Aviation University of China

基  金:国家863计划资助项目(2002AA735041)

摘  要:针对Q-学习算法中探索与利用之间的平衡问题,在基于Metropolis准则的Q-学习的基础上,提出了基于探索区域扩张策略的Q-学习改进算法,消除了初始时刻在整个环境中加入探索的盲目性,提高了学习效率。通过加入算法的自主学习结束条件,避免了找到最优路径后的重复学习,节省了学习时间。仿真实验证明了该算法的有效性。The balance between exploration and exploitation is one of the key problems in Q-learning algorithm. An improved Q-learning algorithm based on exploration region expansion policy is proposed on the basis of Metropolis-based Q-learning. The blindness of exploration in the entire environment is eliminated and the efficiency of learning is increased. Through an automatic termination condition, the redundant learning after finding optimal path is avoided and the time of learning is reduced. The validity of the algorithm is proved by simulation experiment.

关 键 词:Q-学习 METROPOLIS准则 探索区域扩张 模拟退火 

分 类 号:TP242.6[自动化与计算机技术—检测技术与自动化装置]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象