检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]江南大学控制科学与工程研究中心,江苏无锡214122
出 处:《计算机仿真》2006年第4期160-162,共3页Computer Simulation
摘 要:针对以往的强化学习对单步动作学习的效率较低,从心理学角度引入内在激励的概念,并将其作为强化学习的激励信号,与外部激励信号一同作用于强化学习的整个过程。改变了传统意义上的强化学习的框架模式。在学习的过程中,不但要学习单步的动作值,同时还学连续动作的技巧值,通过构建各种“技巧”,来提高解决新问题的能力,使学习的效率得到很大的提高。最后将内在激励的强化学习运用于Robocup仿真组足球比赛当中。In order to increase the speed of the single step action learning, the conception of intrinsic motivation from psychology is introduced. We use intrinsic reinforcement signal, together with extrinsic reinforcement signal to act on the whole process of the learning. The traditional mode of reinforcement learning is changed. In the process of learning, not only the single action is learned, but also the skills with multiple actions. By constructing kinds of skills, the ability for solving new problem may be improved. At last, the intrinsic motivation reinforcement learning is used for Robocup simulation.
分 类 号:TP242[自动化与计算机技术—检测技术与自动化装置]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.67