强化学习方法

作品数:126被引量:575H指数:13
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:程玉虎王雪松刘全李厚强周文罡更多>>
相关机构:清华大学中国科学技术大学南京大学浙江大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金江苏省自然科学基金江苏省高校自然科学研究项目中央高校基本科研业务费专项资金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机研究与发展x
条 记 录,以下是1-4
视图:
排序:
基于BP神经网络的双层启发式强化学习方法被引量:39
《计算机研究与发展》2015年第3期579-587,共9页刘智斌 曾晓勤 刘惠义 储荣 
国家自然科学基金项目(60971088;60571048)
强化学习通过与环境交互的方式进行学习,在较大状态空间中其学习效率却很低.植入先验知识能够提高学习速度,然而不恰当的先验知识反而会误导学习过程,对学习性能不利.提出一种基于BP神经网络的双层启发式强化学习方法 NNH-QL,改变了传...
关键词:NNH-QL 强化学习 Q学习 神经网络 路径规划 
一种基于智能调度的可扩展并行强化学习方法被引量:3
《计算机研究与发展》2013年第4期843-851,共9页刘全 傅启明 杨旭东 荆玲 李瑾 李娇 
国家自然科学基金项目(61070223,61103045,60970015,61272005);江苏省自然科学基金项目(BK2009116);江苏省高校自然科学基金项目(09KJA520002,09KJB520012);吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172012K04)
针对强化学习在大状态空间或连续状态空间中存在的"维数灾"问题,提出一种基于智能调度的可扩展并行强化学习方法——IS-SRL,并从理论上进行分析,证明其收敛性.该方法采用分而治之策略对大状态空间进行分块,使得每个分块能够调入内存独...
关键词:强化学习 分而治之 并行计算 可扩展性 智能调度 
一种基于启发式轮廓表的逻辑强化学习方法被引量:8
《计算机研究与发展》2008年第11期1824-1830,共7页刘全 高阳 陈道蓄 孙吉贵 姚望舒 
国家自然科学基金项目(60673092,60775046);教育部科学技术研究基金重点项目(207040);中国博士后科研基金项目(20060390919);江苏省高校自然科学基金项目(06KJB520104);江苏省博士后科研基金项目(060211C)~~
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表的一阶谓词...
关键词:维数灾 启发式轮廓表 谓词 逻辑强化学习 CCLORRL算法 
基于节点生长k-均值聚类算法的强化学习方法被引量:13
《计算机研究与发展》2006年第4期661-666,共6页陈宗海 文锋 聂建斌 吴晓曙 
国家自然科学基金项目(60575033)
处理连续状态强化学习问题,主要方法有两类:参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺点的基础上,提出了一种基于节点生长k均值聚类算法的划分方法,分别给出了在离散动作和连续动作两种情...
关键词:强化学习 K-均值聚类算法 Sarsa学习 连续状态表示 
检索报告 对象比较 聚类工具 使用帮助 返回顶部