检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]云南大学,昆明650091 [2]昆明工学院,昆明650093
出 处:《应用概率统计》1997年第1期1-10,共10页Chinese Journal of Applied Probability and Statistics
基 金:云南省应用基础研究基金
摘 要:本文讨论报酬函数无界,转移速率族一致有界,状态空间和行动集均可数的连续时间折扣马氏决策规划(CTMDP).文中引入了一类新的无界报酬函数,并在一新的马氏策略类中,证明了有界报酬下成立的所有结果;讨论了最优策略的结构,得到了该模型策略为最优的一个充要条件.This paper investigates the continuous time Markov decision processes with discounted criterion.Here, the state spacc and the action set are countable, the reward functions are unbounded,and the transition rates are uniformly bounded. A new condition about the unbounded rewards ispresented. In a new set of Markov policies, what is true under bounded rewards has been provedis eaually ture under unbounded rewards. Through the study of the intrinsic structures of optimalplicies, a condition necessary and sulflicient for optinal policies is first worked out.
分 类 号:O211.62[理学—概率论与数理统计]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249