非平稳MDP平均模型── 一致最优(G,B)-生成策略的存在性

Non-stationary MDP Average Model - The Existence of Persistently Optimal (G, B)-Generated Policies

作　　者：郭先平[1]

出　　处：《数学学报（中文版）》2000年第2期269-274,共6页Acta Mathematica Sinica：Chinese Series

基　　金：国家自然科学基金;广东省自然科学基金

摘　　要：本文考虑的是可数状态空间任意行动空间非平稳ＭＤＰ平均模型，借鉴于ＦｅｉｎｂｅｒｇＥ．Ａ（１９９４）的思想，提出了比马氏策略和ＦｅｉｎｂｅｒｇＥ．Ａ的（ｆ，Ｂ）－生成策略和更为广泛的（Ｇ，Ｂ）－生成策略的概念，在弱遍历条件下，用概率分析的方法，证明了一致最优（Ｇ，Ｂ）－生成策略的存在性．从而将ＦｅｉｎｂｅｒｇＥ．Ａ．（１９９４）的主要结果推广到非平衡可数状态空间情形．In this paper, we consider the non-stationary MDP average model with countable state space and arb.iotrary action space : Using the (f, B)-generated policies of Feinberg E. A. for reference. We put forward the (G, B)-generated policies which are the generalization of Markov policies and (f, B)-generated policies of Feinberg E. A.. By probability and analysics method, we prove the existence of persistently optimal (G, B)-generated policies. under weaker ergodict conditions.

关键词：马氏决策规划非平稳MDP平均模型 (G B)生成策略

分类号：O221.5[理学—运筹学与控制论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

非平稳MDP平均模型── 一致最优(G,B)-生成策略的存在性

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

非平稳MDP平均模型── 一致最优(G,B)-生成策略的存在性

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索