云南高校图书馆联盟文献共享服务平台- 平均奖赏

公共卫生与预防医学

营养与食品卫生学

人体解剖和组织胚胎学

航空、航天与航海医学

影像医学与核医学

血液循环系统疾病

神经病学与精神病学

皮肤病学与性病学

微生物与生化药学

农业机械化工程

农业电气化与自动化

作物栽培与耕作技术

农业昆虫与害虫防治

木材科学与技术

特种经济动物饲养

材料科学与工程

矿井通风与安全

石油与天然气工程

油气田开发工程

冶金机械及自动化

金属切削加工及机床

机械设计及理论

机械制造及自动化

仪器科学与技术

精密仪器及机械

测试计量技术及仪器

兵器科学与技术

兵器发射理论与技术

武器系统与运用工程

火炮、自动武器与弹药工程

军事化学与烟火技术

动力工程及工程热物理

动力机械及工程

流体机械及工程

核燃料循环与材料

辐射防护及环境保护

电工理论与新技术

电力系统及自动化

高电压与绝缘技术

电力电子与电力传动

微电子学与固体电子学

信息与通信工程

通信与信息系统

信号与信息处理

自动化与计算机技术

控制科学与工程

控制理论与控制工程

检测技术与自动化装置

计算机科学与技术

计算机系统结构

计算机软件与理论

计算机应用技术

合成树脂塑料工业

轻工技术与工程

纺织科学与工程

纺织材料与纺织品设计

纺织化学与染整工程

服装设计与工程

食品科学与工程

粮食、油脂及植物蛋白工程

农产品加工及贮藏工程

水产品加工及贮藏工程

皮革化学与工程

建筑设计及理论

城市规划与设计

供热、供燃气、通风及空调工程

桥梁与隧道工程

水文学及水资源

水力学及河流动力学

道路与铁道工程

交通信息工程及控制

交通运输规划与管理

载运工具运用工程

船舶与海洋工程

船舶及航道工程

港口、海岸及近海工程

航空宇航科学技术

航空宇航推进理论与工程

航空宇航制造工程

人机与环境工程

环境科学与工程

概率论与数理统计

运筹学与控制论

一般力学与力学基础

热学与物质分子运动论

原子与分子物理

粒子物理与原子核物理

测绘科学与技术

大地测量学与测量工程

摄影测量与遥感

地图制图学与地理信息工程

固体地球物理学

大气科学及气象学

大气物理学与大气环境

古生物学与地层学

职业技术教育学

国际共产主义运动

宪法学与行政法学

环境与资源保护法学

马克思主义哲学

发展与教育心理学

考古学及博物馆学

时间限定

时间：

更新时间：

期刊范围

全部期刊核心期刊 EI来源期刊 SCI来源期刊 CAS来源期刊 CSCD来源期刊 CSSCI来源期刊

学科限定全选

平均奖赏: 作品数：6被引量：19H指数：2; 导出分析报告; 相关领域：自动化与计算机技术更多>>; 相关作者：刘全谢建平陈焕文傅启明伏玉琛更多>>; 相关机构：南京大学苏州大学长沙交通学院长沙电力学院更多>>; 相关期刊：《模式识别与人工智能》《计算机工程与应用》《通信学报》《苏州大学学报（自然科学版）》更多>>; 相关基金：国家自然科学基金江苏省高校自然科学研究项目江苏省自然科学基金湖南省教育厅科研基金更多>>

在结果中检索

检索结果分析

共条记录，以下是1-6

全选清除导出

参考文献引证文献引用追踪

视图：

排序：

基于平均奖赏强化学习算法的零阶分类元系统被引量：1: 《计算机工程与应用》2016年第21期14-20,48,共8页臧兆祥李昭王俊英但志平; 国家自然科学基金(No.61502274);湖北省自然科学基金(No.2015CFB336;No.2014CFC1144;No.2015CFA025);三峡大学水电工程智能视觉监测湖北省重点实验室开放基金(No.2015KLA08;No.2014KLA08);三峡大学人才科研启动基金(No.KJ2013B064;No.KJ2013B063); 零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(GeneticsBased Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的...; 关键词：平均奖赏强化学习 R-学习算法学习分类元系统(LCS) 零阶分类元系统(ZCS) 多步学习问题

一种改进的平均奖赏强化学习方法在RoboCup训练中的应用被引量：2: 《苏州大学学报（自然科学版）》2012年第2期21-26,共6页李瑾刘全杨旭东杨凯翁东良; 国家自然科学基金(61070223;61103045;60970015;61170020);江苏省自然科学基金(BK2009116);江苏省高校自然科学研究基金(09KJA520002;09KJB520012); 强化学习在人工智能领域中是一种重要的解决学习控制问题的方法.在强化学习中,平均奖赏类型的强化学习方法适用于解决具有循环特性或者不具有终结状态的问题,然而平均奖赏强化学习存在收敛速度慢、对参数和环境敏感等问题.针对平均奖赏...; 关键词：平均奖赏强化学习 Keepaway ROBOCUP

最小状态变元平均奖赏的强化学习方法被引量：15: 《通信学报》2011年第1期66-71,共6页刘全傅启明龚声蓉伏玉琛崔志明; 国家自然科学基金资助项目(60873116;61070223;61070122);江苏省自然科学基金资助项目(BK2008161;BK2009116);江苏省高校自然科学研究基金资助项目(09KJA520002);江苏省现代企业信息化应用支撑软件工程技术研究开发中心基金资助项目(SX200804)~~; 针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的"维数灾"问题,提出最小状态变元的思想。将最...; 关键词：强化学习平均奖赏俄罗斯方块最小状态

一种结合Tile Coding的平均奖赏强化学习算法: 《模式识别与人工智能》2008年第4期446-452,共7页王巍巍陈兴国高阳; 国家自然科学基金(No.60775046);国家自然科学基金委创新研究群体科学基金(No.60721002)资助; 平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参...; 关键词：强化学习马尔可夫决策过程(MDP) R-学习 G-学习平均奖赏

一类基于有效跟踪的广义平均奖赏激励学习算法被引量：1: 《计算机工程与应用》2002年第1期65-68,共4页陈焕文谢建平; 国家自然科学基金;湖南省教育厅科研基金; 取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验。; 关键词：激励学习 MARKOV决策过程平均奖赏有效跟踪

平均奖赏MDP的在策略无模型激励学习算法: 《计算机工程与科学》2001年第2期66-69,共4页陈焕文谢丽娟; 本文以随机逼近的形式 ,提出了一些用于求解平均奖赏 Markov决策过程系统方程的在策略无模型激励学习算法。这些算法与广泛且成功应用于折扣奖赏 MDP的 SARSA(λ)类算法相似。为比较这些新算法的性能 ,本文还给出了一些初步的实验结果。; 关键词：激励学习 MARKOV决策过程平均奖赏折扣奖赏人工智能

全选清除导出

共1页<1>

检索报告对象比较聚类工具使用帮助返回顶部

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

平均奖赏

检索结果分析

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

平均奖赏

检索结果分析

下载全文

用户登录

高级检索检索式检索