教育部“新世纪优秀人才支持计划”(NCET-11-0626)

作品数:9被引量:27H指数:3
导出分析报告
相关作者:唐昊周雷江琦谭琦程文娟更多>>
相关机构:合肥工业大学更多>>
相关期刊:《合肥工业大学学报(自然科学版)》《自动化学报》《控制理论与应用》《计算机工程与应用》更多>>
相关主题:半马尔可夫决策过程Q学习储能多AGENT强化学习优化控制更多>>
相关领域:自动化与计算机技术电气工程理学电子电信更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 主题=半MARKOV决策过程x
条 记 录,以下是1-1
视图:
排序:
基于连续时间半马尔可夫决策过程的Option算法被引量:2
《计算机学报》2014年第9期2027-2037,共11页唐昊 张晓艳 韩江洪 周雷 
国家自然科学基金(61174188,71231004,61374158);国家国际科技合作项目(2011FA10440);教育部新世纪优秀人才计划项目(NCET-11-0626);高等学校博士学科点专项科研基金(博导类)(20130111110007)资助~~
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可...
关键词:连续时间半Markov决策过程 分层强化学习 Q学习 
检索报告 对象比较 聚类工具 使用帮助 返回顶部