非时齐无界报酬马氏决策规划  

Non--stationary Markov decision programming with unbounded rewardes

在线阅读下载全文

作  者:胡奇英[1] 

机构地区:[1]西安电子科技大学管理工程与情报工程系

出  处:《西安电子科技大学学报》1992年第1期72-83,共12页Journal of Xidian University

摘  要:论文讨论折扣因子依赖于(i,a)的非时齐马氏决策规划,提出了两组报酬无界的假设,证明了时齐正、负动态规划中的结论在这里都成立。最后讨论了此模型的最优策略性质。The paper discusses the non-stationary Markov decision programming (abrev. MDP) with the discounted factor being of the form β_n(i, a). We present two assumptions about the unbounded rewardes and the similar results as in the stationary positive and negative dy- namic programming are all true here. Finally, we investigate the properties of the optimal policies.

关 键 词:马氏决策规划 无界报酬 最优策略 

分 类 号:O221[理学—运筹学与控制论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象