检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:陈圣磊[1] 吴慧中[1] 韩祥兰[1] 肖亮[1]
机构地区:[1]南京理工大学计算机科学与技术系,南京210094
出 处:《计算机科学》2006年第3期147-150,共4页Computer Science
基 金:本文得到国防预研基金项目资助
摘 要:Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k 值的确定原则。通过悬崖步行仿真试验验证了该算法的有效性。理论分析和数值试验均表明.该算法具有较强的预见能力.同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法。Q learning is of great importance in reinforcement learning. MQ algorithm with multi-step predicting capability is proposed to compensate the drawbacks of Q learning and Q(λ)algorithmin in this paper . Firsly MDP model is presented. Then based on the analyses of Q learning and Q(λ)algorithm, MQ algorithm is proposed. The algorithm's update strategy and determination rule of k are also analyzed. The effectiveness of this algorithm is verified through the cliff walking simulation experiments. Theoretical analyses and experiments indicate that better predicting capability and decreased computation complexity can be obtained in this algorithm. So it can balance update speed and complexity effectively.
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.33