Polish空间上的折扣马氏过程量子化策略的渐近优化  

Asymptotic Optimality of Quantized Stationary Policies in Continuous-Time Markov Decision Processes with Polish Spaces

在线阅读下载全文

作  者:吴晓 孔荫莹[2] 郭圳滨 Wu Xiao;Kong Yinying;Guo Zhenbin(School of Mathematics and Statistics,Zhaoqing University,Guangdong Zhaoqing 526061;School of Intelligence Financial&Accounting Management,Guangdong University of Finance and Economics,Guangzhou 510320;Development Research Center,GF Securities Co Ltd,Shanghai 200120)

机构地区:[1]肇庆学院数学与统计学院,广东肇庆526061 [2]广东财经大学智能财会管理学院,广州510320 [3]广发证券股份有限公司发展研究中心,上海200120

出  处:《数学物理学报(A辑)》2022年第2期594-604,共11页Acta Mathematica Scientia

基  金:国家自然科学基金(11961005);中山大学广东省计算科学重点实验室开放基金(2021021);广东省普通高校重点领域(新一代信息技术)基金(2020ZDZX3019);广州市科技计划项目(202102080420)。

摘  要:该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对行动空间进行离散化,构造了一列量子化策略,利用有限行动空间的策略来逼近一般(Polish)空间上的折扣CTMDPs最优平稳策略.最后,通过一个例子来说明该文的渐近逼近结果.In this paper,we study the asymptotic optimality of the quantized stationary policies for continuous-time Markov decision processes(CTMDPs)with Polish space and statedependent discount factors.Firstly,the existence and uniqueness of the discounted optimal equation(DOE)and its solution are established.Secondly,the existence of the optimal deterministic stationary policies is proved under appropriate conditions.In addition,in order to discretize the action space,a series of quantization policies are constructed to approximate the optimal stationary policies of the discounted CTMDPs in general state(Polish)space by using the policies in finite action space.Finally,an example is given to illustrate the asymptotic approximation results of this paper.

关 键 词:连续时间马尔可夫决策过程 依赖状态折扣因子 折扣准则 量子化平稳策略 渐近最优性 

分 类 号:O211.6[理学—概率论与数理统计]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象