平均奖赏

作品数:6被引量:19H指数:2
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:刘全谢建平陈焕文傅启明伏玉琛更多>>
相关机构:南京大学苏州大学长沙交通学院长沙电力学院更多>>
相关期刊:《模式识别与人工智能》《计算机工程与应用》《通信学报》《苏州大学学报(自然科学版)》更多>>
相关基金:国家自然科学基金江苏省高校自然科学研究项目江苏省自然科学基金湖南省教育厅科研基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-6
视图:
排序:
基于平均奖赏强化学习算法的零阶分类元系统被引量:1
《计算机工程与应用》2016年第21期14-20,48,共8页臧兆祥 李昭 王俊英 但志平 
国家自然科学基金(No.61502274);湖北省自然科学基金(No.2015CFB336;No.2014CFC1144;No.2015CFA025);三峡大学水电工程智能视觉监测湖北省重点实验室开放基金(No.2015KLA08;No.2014KLA08);三峡大学人才科研启动基金(No.KJ2013B064;No.KJ2013B063)
零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(GeneticsBased Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的...
关键词:平均奖赏 强化学习 R-学习算法 学习分类元系统(LCS) 零阶分类元系统(ZCS) 多步学习问题 
一种改进的平均奖赏强化学习方法在RoboCup训练中的应用被引量:2
《苏州大学学报(自然科学版)》2012年第2期21-26,共6页李瑾 刘全 杨旭东 杨凯 翁东良 
国家自然科学基金(61070223;61103045;60970015;61170020);江苏省自然科学基金(BK2009116);江苏省高校自然科学研究基金(09KJA520002;09KJB520012)
强化学习在人工智能领域中是一种重要的解决学习控制问题的方法.在强化学习中,平均奖赏类型的强化学习方法适用于解决具有循环特性或者不具有终结状态的问题,然而平均奖赏强化学习存在收敛速度慢、对参数和环境敏感等问题.针对平均奖赏...
关键词:平均奖赏 强化学习 Keepaway ROBOCUP 
最小状态变元平均奖赏的强化学习方法被引量:15
《通信学报》2011年第1期66-71,共6页刘全 傅启明 龚声蓉 伏玉琛 崔志明 
国家自然科学基金资助项目(60873116;61070223;61070122);江苏省自然科学基金资助项目(BK2008161;BK2009116);江苏省高校自然科学研究基金资助项目(09KJA520002);江苏省现代企业信息化应用支撑软件工程技术研究开发中心基金资助项目(SX200804)~~
针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的"维数灾"问题,提出最小状态变元的思想。将最...
关键词:强化学习 平均奖赏 俄罗斯方块 最小状态 
一种结合Tile Coding的平均奖赏强化学习算法
《模式识别与人工智能》2008年第4期446-452,共7页王巍巍 陈兴国 高阳 
国家自然科学基金(No.60775046);国家自然科学基金委创新研究群体科学基金(No.60721002)资助
平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参...
关键词:强化学习 马尔可夫决策过程(MDP) R-学习 G-学习 平均奖赏 
一类基于有效跟踪的广义平均奖赏激励学习算法被引量:1
《计算机工程与应用》2002年第1期65-68,共4页陈焕文 谢建平 
国家自然科学基金;湖南省教育厅科研基金
取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验。
关键词:激励学习 MARKOV决策过程 平均奖赏 有效跟踪 
平均奖赏MDP的在策略无模型激励学习算法
《计算机工程与科学》2001年第2期66-69,共4页陈焕文 谢丽娟 
本文以随机逼近的形式 ,提出了一些用于求解平均奖赏 Markov决策过程系统方程的在策略无模型激励学习算法。这些算法与广泛且成功应用于折扣奖赏 MDP的 SARSA(λ)类算法相似。为比较这些新算法的性能 ,本文还给出了一些初步的实验结果。
关键词:激励学习 MARKOV决策过程 平均奖赏 折扣奖赏 人工智能 
检索报告 对象比较 聚类工具 使用帮助 返回顶部