检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]云南大学数学系,云南昆明650091 [2]云南大学统计系,云南昆明650091
出 处:《云南大学学报(自然科学版)》2000年第1期9-12,共4页Journal of Yunnan University(Natural Sciences Edition)
摘 要:讨论平均准则控制马氏链的强化学习算法.目的是寻找使得长期每阶段期望平均报酬最大的最优控制策略.由于事先未知状态转移矩阵及报酬向量,故必需使用自适应控制方法.通过引入称之为行动器和评判器的神经网络构造,使得学习单元在不断学习中,最终能发现最优策略.行动器的参数在学习中不断被修正,每一时刻的参数的值均对应着一个随机控制策略.An average reward reinforcement learning algorithm for control Markov chains is presented.The objective is to find an optimal policy which maximizes the expected average reward per time step over infinite horizon.The transition matrices and payoff structures are not known a priori;so adaptive control methods are necessary.A neural networks structure,called actor and critic,is provided for the agent.The parameters of the actor,which determine a stochastic control strategy,are updated at each time step using a simple learning scheme.The adaptive critic is used to estimate these parameters for finding the optimal policy.
分 类 号:TP273.2[自动化与计算机技术—检测技术与自动化装置]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.112