性能势

作品数:44被引量:118H指数:5
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:奚宏生殷保群周亚平唐昊周雷更多>>
相关机构:中国科学技术大学合肥工业大学东南大学广东工业大学更多>>
相关期刊:《兵工自动化》《中国科学技术大学学报》《计算机学报》《系统仿真学报》更多>>
相关基金:国家自然科学基金安徽省自然科学基金安徽高校省级自然科学研究基金国家教育部博士点基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于勒贝格采样的非线性系统优化控制
《复杂系统与复杂性科学》2019年第1期83-93,共11页朱萌萌 宋运忠 
国家自然科学基金(61340041,61374079);河南省自然科学基金(182300410112)
为了解决非线性系统中的最优控制问题,在性能势理论的基础上,提出了一种基于勒贝格采样的新的事件触发控制策略。首先,根据最优控制理论,给出了基于勒贝格采样的非线性系统数学模型。然后,结合Markov决策过程中的时间集结法、解析法和...
关键词:非线性系统 勒贝格采样 时间集结 性能势 策略迭代算法 最优控制 
基于事件的优化方法简介及其在能源互联网中的应用被引量:14
《控制理论与应用》2018年第1期32-40,共9页贾庆山 杨玉 夏俐 管晓宏 
国家重点研发计划(2016YFB0901900);国家自然科学基金项目(61673229;61174072;61222302;91224008;61221063;U1301254)资助~~
许多实际系统具有事件驱动的特性,即系统状态的动态演化由一系列离散事件触发,这类系统称为离散事件动态系统(discrete event dynamic system,DEDS).针对这类系统的性能优化,本文介绍一种基于事件的优化模型(event-based optimization,E...
关键词:事件驱动 性能势 事件Q因子 性能差分 仿真优化 能源互联网 
基于性能势的A*平均奖赏强化学习算法研究被引量:2
《计算机仿真》2014年第7期338-341,共4页黄浩晖 杨宛璐 陈玮 
强化学习和性能势理论是当前人工智能领域的研究热点,RoboCup足球机器人仿真为人工智能和机器人学研究提供了一个良好的实验平台,针对强化学习和性能势理论在足球机器人仿真应用中求解过程不稳定和收敛速度过慢问题,提出了一个新的强化...
关键词:强化学习 性能势 启发式搜索 半马尔科夫决策过程 
多Agent MDPs中并行Rollout学习算法
《安徽工程大学学报》2014年第2期75-78,共4页李豹 
文章在rollout算法基础上研究了在多Agent MDPs的学习问题.利用神经元动态规划逼近方法来降低其空间复杂度,从而减少算法"维数灾".由于Rollout算法具有很强的内在并行性,文中还分析了并行求解方法.通过多级仓库库存控制的仿真试验,验证...
关键词:ROLLOUT算法 神经元动态规划 多AGENT学习 性能势 并行算法 
性能势算法研究及在RoboCup中的应用
《计算机工程与设计》2014年第3期905-908,共4页杨宛璐 陈玮 黄浩晖 王广涛 
强化学习是人工智能领域中解决学习控制的一种重要方法。在强化学习算法中,平均奖赏强化学习是以平均奖赏值作为参照标准,适用于解决具有循环特性或不具终结状态的问题,其存在参数和环境的敏感及收敛速度慢等问题,并且强调的是单个智能...
关键词:足球机器人 强化学习 性能势 G-learning算法 多智能体系统 
基于Markov切换空间的分布式协同接入控制模型
《太赫兹科学与电子信息学报》2013年第6期970-976,980,共8页刘兴华 奚宏生 
国家重点基金资助项目(61233003);中国博士研究生教育基金资助项目(20093402110019)
基于3层架构的映射框架,本文以视频业务为主要研究对象,研究了分布式协同接入控制系统的建模和调控机理。不失一般性,假设视频业务需求近似服从泊松分布,而服务时间服从指数分布,将一个资源节点上的业务接入状态的演化用Markov过程来描...
关键词:MARKOV决策过程 MARKOV切换系统 性能势 策略迭代 
多媒体服务器集群系统节能建模与在线优化被引量:1
《信息与控制》2013年第1期125-131,共7页胡晗 杨坚 朱里越 奚宏生 
国家自然科学基金资助项目(61074033);教育部博士点基金资助项目(20093402110019);中央高校基本科研业务费专项资金资助项目(WK2100100004)
提出了一种基于马尔可夫切换状态空间控制模型的多媒体服务器集群系统能耗最优控制方法.通过建立多媒体服务器集群的随机控制模型,将能耗最优控制描述为一个带约束的优化问题.结合拉格朗日乘子法和性能势理论,提出了一种在线策略迭代算...
关键词:动态能耗管理 马尔可夫决策过程 在线优化 性能势 
视频业务的分布式协同接入控制建模被引量:8
《新型工业化》2013年第1期68-78,共11页刘兴华 奚宏生 
国家重点基金专项(61233003);教育部博士点基金(20093402110019)
基于三层架构的映射框架,本文研究了分布式协同接入控制的建模和调控机理。因为视频业务已成为引起接入网性能瓶颈的主要因素,所以本文以视频业务为主要研究对象。假设视频业务需求近似服从泊松分布,而服务时间服从指数分布,将一个资源...
关键词:控制理论与控制工程 马尔可夫决策过程 马尔可夫切换系统 性能势 策略迭代 
基于强化学习的异步动态定价算法被引量:4
《系统工程学报》2011年第5期664-670,共7页王金田 唐昊 程文娟 毕翔 
教育部留学回国人员科研启动基金资助项目(教外司2008890);安徽省自然科学基金资助项目(070416242;090-412046);安徽高校省级自然科学研究重点资助项目(KJ2008A058;KJ2010A256)
研究电子零售市场上两个销售商在彼此没有信息交互情况下的异步动态定价问题.基于性能势理论,建立了同时适用于平均和折扣两种优化准则下的异步定价策略的Q学习和WoLF-PHC算法,通过一个数值例子比较了相关算法的学习优化效果.仿真结果表...
关键词:异步动态定价 多AGENT 性能势 WoLF—PHC算法 
机会式频谱接入优化问题的研究被引量:1
《控制与决策》2010年第6期857-861,866,共6页黄永皓 陈曦 
国家自然科学基金项目(60574064;60736027)
研究机会式频谱接入技术中探测与接入策略的优化问题.首先,以与原问题等价的信度马尔可夫决策过程为基本模型,基于性能势的核心概念,从性能灵敏度的角度出发,分析不同策略下系统的性能差异,给出了优化探测与接入策略的迭代算法;然后,通...
关键词:机会式频谱接入技术 信度马尔可夫决策过程 性能势 策略迭代 
检索报告 对象比较 聚类工具 使用帮助 返回顶部