Q学习算法

作品数:173被引量:919H指数:16
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:余涛唐昊于乃功周雷吴沧浦更多>>
相关机构:华南理工大学合肥工业大学北京工业大学哈尔滨工业大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划广东省自然科学基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 基金=国家重点基础研究发展计划x
条 记 录,以下是1-8
视图:
排序:
基于知识迁移Q学习算法的多能源系统联合优化调度被引量:28
《电力系统自动化》2017年第15期18-25,共8页瞿凯平 张孝顺 余涛 韩传家 
国家重点基础研究发展计划(973计划)资助项目(2013CB228205);国家自然科学基金资助项目(51477055)~~
随着能源互联网的提出,传统的单一能源优化利用模式正在发生变革,多种能源网络协调优化模式展现出广阔的发展前景。在此背景下,首先以能源中心建模方法建立了多能源系统的联合优化调度框架,在此基础上构建了计及含阀点效应供能成本和碳...
关键词:多能源系统 优化调度 能源中心 级联式算法 知识迁移Q学习 内点法 
车载通信中基于Q学习的信道接入技术研究
《计算机技术与发展》2017年第3期85-90,共6页杜艾芊 赵海涛 刘南杰 
国家"973"重点基础研究发展计划项目(2013CB329005);国家自然科学基金资助项目(61302100;61101105;61201162);江苏省基础研究计划-重点研究专项基金(BK2011027;BK2012434);江苏省高校自然科学研究基金(12KJB510022;12KJB510020)
针对基于IEEE 802.11p协议的车载网络MAC层DCF(分布式协调功能)信道接入方法存在数据包接收率低、时延高、可扩展性差等问题,提出一种基于Q学习的CW动态调整算法-QL-CWmin算法。区别于现有的BEB算法,通过利用Q学习,网络节点(Agent)能够...
关键词:车载网络 BEB算法 竞争窗口 Q学习算法 分布式协调功能 
基于协同一致性迁移Q学习算法的虚拟发电部落AGC功率动态分配被引量:34
《中国电机工程学报》2017年第5期1455-1466,共12页张孝顺 李清 余涛 陈柏熹 
国家重点基础研究发展计划(973计划)(2013CB228205);国家自然科学基金项目(51177051;51477055)~~
为适应智能电网分散自治的发展趋势,文中在虚拟发电部落控制框架下,提出了一致性迁移Q学习的AGC功率动态分配方法。通过构建两层的功率分配模式,有效解决了机组规模较大导致的"维数灾难"问题。在每个部落与其相邻部落进行值函数矩阵的...
关键词:一致性迁移Q学习 虚拟发电部落 自动发电控制 功率动态分配 
基于强化学习方法的风储合作决策被引量:30
《电网技术》2016年第9期2729-2736,共8页刘国静 韩学山 王尚 杨明 王明强 
国家自然科学基金项目(51477091;51177091);国家重点基础研究发展计划项目(973计划)(2013CB228205)~~
在风储配置给定前提下,研究风电与储能系统如何有机合作的问题。核心在于风电与储能组成混合系统参与电力交易,通过合作提升其市场竞争的能力。针对现有研究的不足,在具有过程化样本的前提下,引入强化学习算法。所建立的控制器具备在线...
关键词:风电 储能系统 强化学习理论 Q学习算法 
基于强化学习的频谱决策与传输算法被引量:1
《系统仿真学报》2013年第3期565-570,共6页江虹 伍春 刘勇 
国家自然科学基金(61072138);国防基础科研计划(B3120110005);国家973计划项目(2009CB320403)
在认知无线电(CR)通信中,各信道可能具有不同的带宽、干扰强度和主用户冲突概率,如何据自身业务特性选择最佳信道和传输策略是系统设计的关键问题之一。提出一种基于Q学习的在线学习算法,用于解决多用户多信道CR系统中的信道选择与自适...
关键词:认知无线电 频谱决策 Q学习算法 自适应传输 
分批补料发酵过程多目标优化的分布式强化学习策略
《化工学报》2011年第8期2243-2247,共5页李大字 宋天恒 靳其兵 谭天伟 
国家重点基础研究发展计划项目(2007CB714300);国家高技术研究发展计划项目(2008AA04Z131);北京市优秀人才资助项目~~
发酵过程优化问题通常包含有互相冲突的多重优化目标,另外反应本身具有诸多复杂性。提出一种基于Pareto的分布式Q学习多目标策略,用以求解赖氨酸分批补料发酵过程流加速率轨迹的Pareto最优解。该策略中,Q学习算法和Pareto排序法将结合...
关键词:Q学习算法 多目标优化 赖氨酸分批补料发酵 
基于DAQL算法的动态频谱接入方案被引量:3
《解放军理工大学学报(自然科学版)》2008年第6期607-611,共5页吴启晖 刘琼俐 
国家863计划资助项目(2007AA01Z267);国家973计划资助项目(2009CB3020402)
针对传统的动态频谱接入方案一般没有考虑自主性,不具备普适性这一缺点,提出了一种基于双动作Q学习算法DAQL(double action Q-learning)的频谱接入方案,该方案将DAQL引入到多授权用户存在的环境下频谱接入问题中,用以降低接入未知频谱...
关键词:强化学习 Q学习 双动作Q学习算法 冲突概率 
一种可信的自适应服务组合机制被引量:20
《计算机学报》2008年第8期1434-1444,共11页郭慧鹏 怀进鹏 邓婷 李扬 
国家自然科学基金(60525209);国家"八六三"高技术研究发展计划项目基金(2006AA01Z19A;2007AA010301);国家"九七三"重点基础研究发展规划项目基金(2005CB321803)资助~~
提出一种可信的自适应服务组合机制.首先,将组合服务的可信性保证问题转换为自适应控制问题,可信性保证策略作为可调节控制器,组合服务作为被控对象,并设计了相应的系统结构;其次,在马尔可夫决策过程框架下建模和优化组合服务的可信维...
关键词:服务组合 可信性 自适应控制 强化学习 Q学习算法 
检索报告 对象比较 聚类工具 使用帮助 返回顶部