云南高校图书馆联盟文献共享服务平台- 半马尔可夫决策过程

半马尔可夫决策过程: 作品数：23被引量：120H指数：6; 导出分析报告; 相关领域：自动化与计算机技术更多>>; 相关作者：唐昊周雷高阳程文娟马学森更多>>; 相关机构：合肥工业大学江南大学南京大学西南交通大学更多>>; 相关期刊：《模式识别与人工智能》《金陵科技学院学报》《计算机应用研究》《长春师范大学学报》更多>>; 相关基金：国家自然科学基金安徽省自然科学基金教育部“新世纪优秀人才支持计划”国家教育部博士点基金更多>>

-

在结果中检索

检索结果分析

结果分析中...

选择条件：

期刊=计算机学报

共条记录，以下是1-2

全选清除导出

参考文献引证文献引用追踪

视图：

排序：

基于连续时间半马尔可夫决策过程的Option算法被引量：2: 《计算机学报》2014年第9期2027-2037,共11页唐昊张晓艳韩江洪周雷; 国家自然科学基金(61174188,71231004,61374158);国家国际科技合作项目(2011FA10440);教育部新世纪优秀人才计划项目(NCET-11-0626);高等学校博士学科点专项科研基金(博导类)(20130111110007)资助~~; 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可...; 关键词：连续时间半Markov决策过程分层强化学习 Q学习

平均奖赏强化学习算法研究被引量：38: 《计算机学报》2007年第8期1372-1378,共7页高阳周如益王皓曹志新; 国家自然科学基金(60475026);国家杰出青年科学基金(60325207)资助~~; 顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证...; 关键词：平均奖赏强化学习性能势 G-学习马尔可夫决策过程半马尔可夫决策过程

全选清除导出

共1页<1>

检索报告对象比较聚类工具使用帮助返回顶部