安徽省自然科学基金(050420303)

作品数:6被引量:10H指数:2
导出分析报告
相关作者:唐昊周雷吴玉华袁继彬程文娟更多>>
相关机构:合肥工业大学更多>>
相关期刊:《控制理论与应用》《系统仿真学报》《控制与决策》《合肥工业大学学报(自然科学版)》更多>>
相关主题:性能势SMDP半MARKOV决策过程神经元动态规划半马尔可夫决策过程更多>>
相关领域:自动化与计算机技术更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-6
视图:
排序:
基于策略迭代和遗传算法的SMDP鲁棒控制策略求解被引量:1
《合肥工业大学学报(自然科学版)》2007年第11期1404-1407,共4页程燕 唐昊 马学森 
国家自然科学基金资助项目(60404009);安徽省自然科学基金资助项目(050420303);合肥工业大学中青年科技创新群体计划资助
半马尔可夫决策过程(SMDP)描述的一类受控半Markov系统,其模型参数在实际中常常不确定或不可知,可能导致随机过程的性能函数和系统参数(即嵌入链转移概率和状态逗留时间分布)皆不确定。该文针对参数不相关的情况,给出求解鲁棒控制策略...
关键词:半马尔可夫决策过程 性能势 鲁棒控制 遗传算法 
SMDP基于Actor网络的统一NDP方法
《控制与决策》2007年第2期155-159,共5页唐昊 陈栋 周雷 吴玉华 
国家自然科学基金项目(60404009);安徽省自然科学基金项目(050420303);合肥工业大学中青年科技创新群体计划项目
研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动...
关键词:半MARKOV决策过程 性能势 TD(λ)学习 神经元动态规划 
SMDP基于性能势的M步向前策略迭代
《吉林大学学报(工学版)》2006年第6期958-962,共5页吴玉华 唐昊 周雷 
国家自然科学基金项目(60404009);安徽省自然科学基金资助项目(050420303);合肥工业大学中青年科技创新群体计划资助项目
运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在...
关键词:计算机应用 半MARKOV决策过程 性能势 M步向前策略迭代 即时差分学习 
半Markov决策过程的数值迭代优化被引量:2
《吉林大学学报(工学版)》2006年第1期108-112,共5页唐昊 吴玉华 周雷 
国家自然科学基金资助项目(60404009);安徽省自然科学基金资助项目(050420303);合肥工业大学中青年科技创新群体计划项目
针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机...
关键词:计算机应用 半MARKOV决策过程 等价无穷小生成子 异步数值迭代 
平均和折扣准则MDP基于TD(0)学习的统一NDP方法被引量:5
《控制理论与应用》2006年第2期292-296,共5页唐昊 周雷 袁继彬 
国家自然科学基金资助项目(60404009);安徽省自然科学基金资助项目(050420303);合肥工业大学中青年科技创新群体计划资助项目
为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行...
关键词:MARKOV决策过程 性能势 TD(0)学习 神经元动态规划 
不确定SMDP基于全局优化的鲁棒决策问题被引量:4
《系统仿真学报》2005年第11期2704-2707,共4页刘春 唐昊 程文娟 
国家自然科学基金项目(60404009);安徽省自然科学基金项目(050420303);合肥工业大学中青年科技创新群体计划资助
考虑半马尔可夫决策过程(SMDP)在一些系统参数不确定,且性能函数依赖于这些参数时的鲁棒决策问题。这些参数的不确定性不仅导致等价无穷小生成子的不确定性,也导致性能函数的不确定性。论文针对相关参数的情况,分别采用不同的全局优化算...
关键词:半马尔可夫决策过程 性能势 鲁棒决策 全局优化 
检索报告 对象比较 聚类工具 使用帮助 返回顶部