基于每阶段平均费用最优的激励学习算法被引量：3

REINFORCEMENT LEARNING ALGORITHM BASED ON AVERAGE COST OPTIMIZATION FOR EACH STAGE

出　　处：《计算机应用》2002年第4期25-27,共3页journal of Computer Applications

基　　金：国家自然科学基金 (60 0 750 1 9)

摘　　要：文中利用求解最优费用函数的方法给出了一种新的激励学习算法 ,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法 ,它从求解分阶段最优平均费用函数的方法出发 ,分析了最优解的存在性、分阶段最优平均费用函数与初始状态的关系以及与之相关的Bellman方程。这种方法的建立 ,可以使得动态规划 (DP)This paper is concerned with the problem of a novel reinforcement learning algorithm for solving optimal average cost function. Q-learning is a reinforcement learning method to solve Markovian decision problems with incomplete information. This paper begins with solving optimal average cost function for each stage, studies the existence of optimal solution, the relationship between the optimal average cost function for each and initial state, and corresponding Bellman equation,proposes the relative value iteration Q-learning algorithm. It can make many results of dynamic programming algorithm for studying Q-learning directly.

关键词：Q学习最优平均费用函数 Bellman方程智能体激励学习算法人工智能

分类号：TP18[自动化与计算机技术—控制理论与控制工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于每阶段平均费用最优的激励学习算法被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于每阶段平均费用最优的激励学习算法 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于每阶段平均费用最优的激励学习算法被引量：3