非平稳MDP—平均样本轨道最优

The Sample Path Optimality for Nonstationary MDP with Average Criterion

作　　者：郭先平[1]

出　　处：《数学物理学报（A辑）》2000年第1期31-35,共5页Acta Mathematica Scientia

基　　金：国家青年基金;广东省自然科学基金

摘　　要：作者考虑的是任意状态空间，任意行动空间非平稳MDP的平均样本轨道目标．在弱遍历条件下，用鞅的极限理论，证明了最优马氏策略的存在性，推广了A．Arapostathis，V．Borkar，E．F．Gaucherand，M．Ghosh，S．Marcus[1]（1993）的主要结果．In this paper, we consider the sample path optimality for non-stationary MDP with arbitrary statc and action spaces under average criterion. By the martingale theory,we prove the existence of optimal Markov policies under the weak ergodic conditions, and then extend the main results obtained by A. Aropostathis, V. Borkar, E. F. Gaucherand,M. Ghosh and S. Marcus[1] (1993).

关键词：马氏决策规划平均样本轨道目标非平衡 MDP

分类号：O221.5[理学—运筹学与控制论] O211.62[理学—数学]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

非平稳MDP—平均样本轨道最优

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

非平稳MDP—平均样本轨道最优

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索