检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]长沙电力学院数学与计算机系,湖南长沙410077
出 处:《计算机应用》2002年第4期25-27,共3页journal of Computer Applications
基 金:国家自然科学基金 (60 0 750 1 9)
摘 要:文中利用求解最优费用函数的方法给出了一种新的激励学习算法 ,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法 ,它从求解分阶段最优平均费用函数的方法出发 ,分析了最优解的存在性、分阶段最优平均费用函数与初始状态的关系以及与之相关的Bellman方程。这种方法的建立 ,可以使得动态规划 (DP)This paper is concerned with the problem of a novel reinforcement learning algorithm for solving optimal average cost function. Q-learning is a reinforcement learning method to solve Markovian decision problems with incomplete information. This paper begins with solving optimal average cost function for each stage, studies the existence of optimal solution, the relationship between the optimal average cost function for each and initial state, and corresponding Bellman equation,proposes the relative value iteration Q-learning algorithm. It can make many results of dynamic programming algorithm for studying Q-learning directly.
关 键 词:Q学习 最优平均费用函数 Bellman方程 智能体 激励学习算法 人工智能
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7