神经元动态规划

作品数:10被引量:16H指数:3
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:唐昊周雷袁继彬陈栋李豹更多>>
相关机构:合肥工业大学中国科学院中国科学技术大学厦门大学更多>>
相关期刊:《控制与决策》《中国科学技术大学学报》《系统仿真学报》《安徽工程大学学报》更多>>
相关基金:国家自然科学基金安徽省自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
SDN中DASH路由规划和码率调节联合决策算法被引量:3
《小型微型计算机系统》2017年第6期1169-1174,共6页姜俊超 朱坤杰 张云飞 杨坚 
国家自然科学基金面上项目(61573329)资助;国家自然科学基金重点项目(61233003)资助;中央高校基本科研业务费专项资金项目(WK2100100026)资助
随着互联网技术的快速发展以及智能设备的普及,基于HTTP的动态自适应流媒体(Dynamic Adaptive Streaming over HTTP,DASH)业务发展迅速.但在带宽受限网络中,大规模用户的视频请求,将会加重网络负载,严重影响网络带宽资源的有效利用,同...
关键词:自适应流媒体码率调节 路由算法 神经元动态规划 软件定义网络 
多Agent MDPs中并行Rollout学习算法
《安徽工程大学学报》2014年第2期75-78,共4页李豹 
文章在rollout算法基础上研究了在多Agent MDPs的学习问题.利用神经元动态规划逼近方法来降低其空间复杂度,从而减少算法"维数灾".由于Rollout算法具有很强的内在并行性,文中还分析了并行求解方法.通过多级仓库库存控制的仿真试验,验证...
关键词:ROLLOUT算法 神经元动态规划 多AGENT学习 性能势 并行算法 
Rollout及其并行求解算法在多类商品库存控制中的应用被引量:1
《系统仿真学报》2007年第17期3883-3887,共5页李豹 程文娟 周雷 唐昊 
国家自然科学基金项目(60404009);安徽省自然科学基金项目(050420303;070416242);安徽高校自然科学研究重点项目(KJ2007A063)
Rollout算法是Bertsekas提出的求解马尔科夫决策过程(MDP)问题的一种仿真优化算法。文章研究Rollout算法求解多类商品库存控制问题,给出了基于性能势和神经元动态规划的Rollout优化算法。另外,为了降低运算时间,文章提出了两种Rollout...
关键词:ROLLOUT算法 库存控制 MARKOV决策过程 性能势 并行算法 神经元动态规划 
基于神经元动态规划的可重入生产系统调度的仿真框架被引量:2
《信息与控制》2007年第2期218-223,共6页王颖 朱顺痣 许威 缪克华 李茂青 
提出一个基于神经元动态规划解决可重入生产系统调度问题的仿真框架.根据可重入生产系统的特点建立状态集,并将调度问题表示成相应的马尔可夫决策过程.选择合理的性能指标,采用神经元动态规划产生每一步的调度,并在仿真中优化策略.仿真...
关键词:仿真框架 可重入生产系统 神经元动态规划 调度 
SMDP基于Actor网络的统一NDP方法
《控制与决策》2007年第2期155-159,共5页唐昊 陈栋 周雷 吴玉华 
国家自然科学基金项目(60404009);安徽省自然科学基金项目(050420303);合肥工业大学中青年科技创新群体计划项目
研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动...
关键词:半MARKOV决策过程 性能势 TD(λ)学习 神经元动态规划 
基于NDP的遗传算法及其在JSP中的应用被引量:3
《清华大学学报(自然科学版)》2006年第4期488-491,共4页金锋 宋士吉 吴澄 
国家"九七三"重点基础研究项目(2002CB312205);国家自然科学基金资助项目(60574077);国家"八六三"高技术项目(2004AA414020)
遗传算法被广泛应用于求解车间作业调度问题(JSP),但遗传算法具有最优参数难以确定的问题。对此,该文提出了一种基于神经元动态规划(NDP)的遗传算法NDP-GA。该文将遗传算法用M arkov决策过程模型描述,建立了M arkov决策过程最优策略与...
关键词:神经元动态规划 车间作业调度 遗传算法 Qlearning 
随机平稳策略下半Markov决策过程的仿真优化算法
《控制理论与应用》2006年第4期547-551,共5页代桂平 唐昊 奚宏生 
国家自然科学基金资助项目(60274012);北京工业大学博士科研启动基金资助项目(00194)
基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性.通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨...
关键词:随机平稳策略 等价Markov过程 一致化Markov链 神经元动态规划 仿真优化 
平均和折扣准则MDP基于TD(0)学习的统一NDP方法被引量:5
《控制理论与应用》2006年第2期292-296,共5页唐昊 周雷 袁继彬 
国家自然科学基金资助项目(60404009);安徽省自然科学基金资助项目(050420303);合肥工业大学中青年科技创新群体计划资助项目
为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行...
关键词:MARKOV决策过程 性能势 TD(0)学习 神经元动态规划 
神经元动态规划综述被引量:2
《信息与控制》2001年第4期343-347,351,共6页金辉宇 于海斌 
国家自然科学基金6 99740 39的支持
神经元动态规划是近年发展起来的一种优化方法 .它采用计算机仿真和函数近似 ,简化对状态空间的搜索 ,可以有效克服“维数危机” ,有广阔的应用前景 .本文对神经元动态规划作一综述 。
关键词:动态规划 神经元动态规划 计算机仿真 
Markov控制过程基于神经元动态规划的优化算法被引量:1
《中国科学技术大学学报》2001年第5期549-557,共9页唐昊 奚宏生 殷保群 
国家自然科学基金 (6 99740 37);国家高性能计算基金 (0 0 2 0 8)资助项目
论文在Markov性能势理论基础上 ,研究了Markov控制过程在神经元网络等逼近结构表示的随机平稳策略作用下的仿真优化算法 ;分析了它们在一个无限长的样本轨道上以概率 1的收敛性 ;并给出了一个三
关键词:Markov性能势理论 MARKOV控制过程 随机平稳策略 样本轨道 神经元动态规划 随机决策问题 
检索报告 对象比较 聚类工具 使用帮助 返回顶部