检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:胡奇英[1]
出 处:《西安电子科技大学学报》1992年第1期72-83,共12页Journal of Xidian University
摘 要:论文讨论折扣因子依赖于(i,a)的非时齐马氏决策规划,提出了两组报酬无界的假设,证明了时齐正、负动态规划中的结论在这里都成立。最后讨论了此模型的最优策略性质。The paper discusses the non-stationary Markov decision programming (abrev. MDP) with the discounted factor being of the form β_n(i, a). We present two assumptions about the unbounded rewardes and the similar results as in the stationary positive and negative dy- namic programming are all true here. Finally, we investigate the properties of the optimal policies.
分 类 号:O221[理学—运筹学与控制论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.227.102.59