于俊

作品数:4被引量:35H指数:3
导出分析报告
供职机构:苏州大学计算机科学与技术学院更多>>
发文主题:贝叶斯高斯过程Q学习函数逼近中图法更多>>
发文领域:自动化与计算机技术更多>>
发文期刊:《电子学报》《计算机学报》《通信学报》《软件学报》更多>>
所获基金:江苏省自然科学基金国家自然科学基金江苏省高校自然科学研究项目教育部重点实验室开放基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-4
视图:
排序:
一种基于随机投影的贝叶斯时间差分算法被引量:1
《电子学报》2016年第11期2752-2757,共6页刘全 于俊 王辉 傅启明 朱斐 
国家自然科学基金(No.61272005;No.61303108;No.61373094;No.61472262;No.61502323;No.61502329);江苏省自然科学基金(No.BK2012616);江苏省高校自然科学研究项目(No.13KJB520020);吉林大学符号计算与知识工程教育部重点实验室项目(No.93K172014K04);苏州市应用基础研究计划工业部分(No.SYG201422;No.SY201308)
在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来...
关键词:强化学习 马尔科夫决策过程 高斯过程 随机投影 时间差分算法 
一种基于线性函数逼近的离策略Q(λ)算法被引量:26
《计算机学报》2014年第3期677-686,共10页傅启明 刘全 王辉 肖飞 于俊 李娇 
国家自然科学基金(60873116;61070223;61103045);江苏省自然科学基金(BK2008161;BK2009116);江苏省高校自然科学研究项目(09KJA520002;09KJB520012);吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)资助~~
将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关...
关键词:强化学习 函数逼近 离策略 Q(A)算法 机器学习中图法 
基于优先级扫描Dyna结构的贝叶斯Q学习方法被引量:6
《通信学报》2013年第11期129-139,共11页于俊 刘全 傅启明 孙洪坤 陈桂兴 
国家自然科学基金资助项目(61070223;61103045;61070122;61272005);江苏省自然科学基金资助项目(BK2012616);江苏省高校自然科学研究基金资助项目(09KJA520002;09KJB520012);吉林大学符号计算与知识工程教育部重点实验室基金资助项目(93K172012K04)~~
贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-B...
关键词:强化学习 马尔科夫决策过程 优先级扫描 Dyna结构 贝叶斯Q学习 
一种高斯过程的带参近似策略迭代算法被引量:4
《软件学报》2013年第11期2676-2686,共11页傅启明 刘全 伏玉琛 周谊成 于俊 
国家自然科学基金(61070223;61103045;61170020;61272005;61272244);江苏省自然科学基金(BK2012616);吉林大学符号计算与知识工程教育部重点实验室基金(93K172012K04)
在大规模状态空间或者连续状态空间中,将函数近似与强化学习相结合是当前机器学习领域的一个研究热点;同时,在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难点.针对大规模状态空间或者连续状态空间、确定环境问题中...
关键词:强化学习 策略迭代 高斯过程 贝叶斯推理 函数近似 
检索报告 对象比较 聚类工具 使用帮助 返回顶部