半马尔可夫决策过程

作品数:23被引量:120H指数:6
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:唐昊周雷高阳程文娟马学森更多>>
相关机构:合肥工业大学江南大学南京大学西南交通大学更多>>
相关期刊:《模式识别与人工智能》《金陵科技学院学报》《计算机应用研究》《长春师范大学学报》更多>>
相关基金:国家自然科学基金安徽省自然科学基金教育部“新世纪优秀人才支持计划”国家教育部博士点基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机学报x
条 记 录,以下是1-2
视图:
排序:
基于连续时间半马尔可夫决策过程的Option算法被引量:2
《计算机学报》2014年第9期2027-2037,共11页唐昊 张晓艳 韩江洪 周雷 
国家自然科学基金(61174188,71231004,61374158);国家国际科技合作项目(2011FA10440);教育部新世纪优秀人才计划项目(NCET-11-0626);高等学校博士学科点专项科研基金(博导类)(20130111110007)资助~~
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可...
关键词:连续时间半Markov决策过程 分层强化学习 Q学习 
平均奖赏强化学习算法研究被引量:38
《计算机学报》2007年第8期1372-1378,共7页高阳 周如益 王皓 曹志新 
国家自然科学基金(60475026);国家杰出青年科学基金(60325207)资助~~
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证...
关键词:平均奖赏强化学习 性能势 G-学习 马尔可夫决策过程 半马尔可夫决策过程 
检索报告 对象比较 聚类工具 使用帮助 返回顶部