检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京理工大学自动化学院,江苏南京210094
出 处:《计算机仿真》2009年第7期154-158,共5页Computer Simulation
基 金:国家自然科学基金项目(60474019);博士点基金项目(20070288022)
摘 要:针对现有Dyna强化学习体系结构下,"规划"和"学习"在计算资源分配上的不合理问题,提出了一种分阶Dyna体系结构,随着经验知识的不断积累,将学习过程划分为探索阶段、变比重学习阶段和优化阶段,分别进行"规划"和"学习"的协调控制,大大减少了计算资源的浪费。结合传统的Q-学习算法,设计了分阶Dyna-Q强化学习算法,以适应动态不确定环境下的任务。在一个标准强化学习问题中,验证了所设计的分阶Dyna强化学习算法比基本Dyna强化学习算法具有更好的学习性能。For rational allocation of computation resource on planning and learning in existing Dyna reinforcement learning architecture, this paper presents a phased Dyna architecture. With the accumulation of experiences, it partitioned whole learning process into exploration, variable proportional learning and optimization phases to controll planning and learning correspondingly, which reduced the waste of computation resource greatly. Combining with tradi- tional Q - learning algorithm, the phased Dyna - Q reinforcement learning algorithm was studied for adapting to dynamic and uncertain environment. Simulation results in a reinforcement learning benchmark problem indicate the efficiency of presented architecture.
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.145.52.101