教育部“新世纪优秀人才支持计划”(NCET-11-0626)

作品数:9被引量:27H指数:3
导出分析报告
相关作者:唐昊周雷江琦谭琦程文娟更多>>
相关机构:合肥工业大学更多>>
相关期刊:《合肥工业大学学报(自然科学版)》《自动化学报》《控制理论与应用》《计算机工程与应用》更多>>
相关主题:半马尔可夫决策过程Q学习储能多AGENT强化学习优化控制更多>>
相关领域:自动化与计算机技术电气工程理学电子电信更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 主题=Q学习x
条 记 录,以下是1-3
视图:
排序:
可变服务率模式下基于需求驱动的传送带给料加工站系统的优化控制被引量:2
《控制理论与应用》2015年第6期810-816,共7页唐昊 许玲玲 周雷 谭琦 
国家自然科学基金项目(61174186;61374158;71231004);国家国际科技合作项目(2011FA10440);教育部新世纪优秀人才计划项目(NCET-11-0626);高等学校博士学科点专项科研基金项目(20130111110007)资助~~
本文主要研究可变服务率模式下基于需求驱动的传送带给料加工站(CSPS)系统的优化控制问题,主要目标是对系统的随机优化控制问题进行建模和提供解决方案.论文以缓冲库和成品库剩余容量为联合状态,以站点前视距离和工件服务率为控制变量,...
关键词:传送带给料加工站 可变服务率 半马尔科夫决策过程 Q学习 
基于连续时间半马尔可夫决策过程的Option算法被引量:2
《计算机学报》2014年第9期2027-2037,共11页唐昊 张晓艳 韩江洪 周雷 
国家自然科学基金(61174188,71231004,61374158);国家国际科技合作项目(2011FA10440);教育部新世纪优秀人才计划项目(NCET-11-0626);高等学校博士学科点专项科研基金(博导类)(20130111110007)资助~~
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可...
关键词:连续时间半Markov决策过程 分层强化学习 Q学习 
基于状态聚类的多站点CSPS系统的协同控制方法被引量:1
《自动化学报》2014年第5期901-908,共8页唐昊 裴荣 周雷 谭琦 
国家自然科学基金(61174186;71231004);国家国际科技合作项目(2011FA10440);教育部新世纪优秀人才计划项目(NCET-11-0626);高等学校博士学科点专项科研基金(20130111110007)资助~~
单站点传送带给料加工站(Conveyor-serviced production station,CSPS)系统中,可运用强化学习对状态–行动空间进行有效探索,以搜索近似最优的前视距离控制策略.但是多站点CSPS系统的协同控制问题中,系统状态空间的大小会随着站点个数...
关键词:多站点CSPS系统 局域信息交互 状态聚类 反馈式Q学习 
检索报告 对象比较 聚类工具 使用帮助 返回顶部