检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:邱德华
机构地区:[1]衡阳师范高等专科学校数学系,衡阳421008
出 处:《衡阳师专学报》1997年第6期16-22,共7页Journal of Hengyang Normal University
摘 要:讨论了无界报酬非时齐折扣马氏决策模型,且折扣因子βt依赖于前一阶段所处的状态和采取的行动,从而推广了常数折扣因子的马氏决策模型,在一定的假设下,得到了最优方程,证明了存在ε-最优马氏策略。In this paper, a non-stationary discounted Markovian Decision model with unbounded rewards is investigated, in which the discount factor β_t is dependent of the state and the action taken before last step of the system, under some assumptions, the optimality equations are established, and the existence of an ε-optimal policy is proved.
分 类 号:O225[理学—运筹学与控制论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249