检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]云南大学,昆明工学院
出 处:《云南大学学报(自然科学版)》1994年第4期299-305,共7页Journal of Yunnan University(Natural Sciences Edition)
摘 要:本文主要讨论了无界报酬向量模型的平稳策略问题,给出了改进平稳策略的方法,建立起向量模型的最优方程,获得平稳策略为强最优策略的充要条件.指出最优平稳策略的期望报酬函数必为极大不动点,最后提出一种寻求最优平稳策略的策略迭代算法.This paper mainly deals with the problems of stationary policies in themodel discussed in [5].A method improving stationary policy is derived. The necessaryand sufficient condition for a stationary policy to be the strongly optimal policy isobtained. The optimality equation for the vector model is established. It is shown that theexpected return functions of optimal stationary policies are the maximal fixed point definedin this paper. Finally, an iterative agorithm for finding the optimal stationary policies anda numerical example are given.
分 类 号:O22[理学—运筹学与控制论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.223.125.111