非平稳MDP—平均样本轨道最优  

The Sample Path Optimality for Nonstationary MDP with Average Criterion

在线阅读下载全文

作  者:郭先平[1] 

机构地区:[1]中山大学数学系,广州510275

出  处:《数学物理学报(A辑)》2000年第1期31-35,共5页Acta Mathematica Scientia

基  金:国家青年基金;广东省自然科学基金

摘  要:作者考虑的是任意状态空间,任意行动空间非平稳MDP的平均样本轨道目标.在弱遍历条件下,用鞅的极限理论,证明了最优马氏策略的存在性,推广了A.Arapostathis,V.Borkar,E.F.Gaucherand,M.Ghosh,S.Marcus[1](1993)的主要结果.In this paper, we consider the sample path optimality for non-stationary MDP with arbitrary statc and action spaces under average criterion. By the martingale theory,we prove the existence of optimal Markov policies under the weak ergodic conditions, and then extend the main results obtained by A. Aropostathis, V. Borkar, E. F. Gaucherand,M. Ghosh and S. Marcus[1] (1993).

关 键 词:马氏决策规划 平均样本轨道目标 非平衡 MDP 

分 类 号:O221.5[理学—运筹学与控制论] O211.62[理学—数学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象