检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:吴晓 郭圳滨 WU Xiao;GUO Zhenbin(School of Mathematics and Statistics,Zhaoqing University,Zhaoqing,526061,China;Development Research Center,GF Securities Co.,Ltd.,Shanghai,200120,China)
机构地区:[1]肇庆学院数学与统计学院,肇庆526061 [2]广发证券股份有限公司发展研究中心,上海200120
出 处:《应用概率统计》2021年第6期598-610,共13页Chinese Journal of Applied Probability and Statistics
基 金:国家自然科学基金项目(批准号:11961005);广东省普通高校特色创新类项目基金(批准号:2018KTSCX253)资助.
摘 要:本文主要研究了可数状态空间上带多约束、可变折扣马氏决策过程首达模型序列的收敛问题.利用``占有测度''及其相关性质,将受约束首达模型序列的优化问题转化为等价的受约束线性规划问题(凸分析方法),在合适条件下证明了首达模型序列的最优值和最优策略收敛于``极限''模型的最优值和最优策略.In this paper,we study the convergence problem of a sequence of first passage Markov decision processes with constraints and varying discount factors.Using the``occupation measures''and its related properties,we transform the constrained optimality problems into linear programming problems on the set of occupation measures(i.e.,the convex analytic approach),and then prove that the optimal values and optimal policies of the original first passage Markov decision processes converge respectively to those of the``limit''one.
关 键 词:马氏决策过程首达模型 多约束 依赖状态折扣因子 凸分析方法 收敛问题
分 类 号:O211.62[理学—概率论与数理统计]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.117.172.41