检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:郭先平[1]
机构地区:[1]中山大学数学系,广州510275
出 处:《数学物理学报(A辑)》2000年第1期31-35,共5页Acta Mathematica Scientia
基 金:国家青年基金;广东省自然科学基金
摘 要:作者考虑的是任意状态空间,任意行动空间非平稳MDP的平均样本轨道目标.在弱遍历条件下,用鞅的极限理论,证明了最优马氏策略的存在性,推广了A.Arapostathis,V.Borkar,E.F.Gaucherand,M.Ghosh,S.Marcus[1](1993)的主要结果.In this paper, we consider the sample path optimality for non-stationary MDP with arbitrary statc and action spaces under average criterion. By the martingale theory,we prove the existence of optimal Markov policies under the weak ergodic conditions, and then extend the main results obtained by A. Aropostathis, V. Borkar, E. F. Gaucherand,M. Ghosh and S. Marcus[1] (1993).
分 类 号:O221.5[理学—运筹学与控制论] O211.62[理学—数学]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.118.28.11