一种多步Q强化学习方法  被引量:3

A Multi-step Q Reinforcement Learning Algorithm

在线阅读下载全文

作  者:陈圣磊[1] 吴慧中[1] 韩祥兰[1] 肖亮[1] 

机构地区:[1]南京理工大学计算机科学与技术系,南京210094

出  处:《计算机科学》2006年第3期147-150,共4页Computer Science

基  金:本文得到国防预研基金项目资助

摘  要:Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k 值的确定原则。通过悬崖步行仿真试验验证了该算法的有效性。理论分析和数值试验均表明.该算法具有较强的预见能力.同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法。Q learning is of great importance in reinforcement learning. MQ algorithm with multi-step predicting capability is proposed to compensate the drawbacks of Q learning and Q(λ)algorithmin in this paper . Firsly MDP model is presented. Then based on the analyses of Q learning and Q(λ)algorithm, MQ algorithm is proposed. The algorithm's update strategy and determination rule of k are also analyzed. The effectiveness of this algorithm is verified through the cliff walking simulation experiments. Theoretical analyses and experiments indicate that better predicting capability and decreased computation complexity can be obtained in this algorithm. So it can balance update speed and complexity effectively.

关 键 词:强化学习 MQ算法 Q学习 Q(λ)算法 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象