基于每阶段平均费用最优的激励学习算法  被引量:3

REINFORCEMENT LEARNING ALGORITHM BASED ON AVERAGE COST OPTIMIZATION FOR EACH STAGE

在线阅读下载全文

作  者:殷苌茗[1] 陈焕文[1] 谢丽娟[1] 

机构地区:[1]长沙电力学院数学与计算机系,湖南长沙410077

出  处:《计算机应用》2002年第4期25-27,共3页journal of Computer Applications

基  金:国家自然科学基金 (60 0 750 1 9)

摘  要:文中利用求解最优费用函数的方法给出了一种新的激励学习算法 ,即基于每阶段平均费用最优的激励学习算法。这种学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法 ,它从求解分阶段最优平均费用函数的方法出发 ,分析了最优解的存在性、分阶段最优平均费用函数与初始状态的关系以及与之相关的Bellman方程。这种方法的建立 ,可以使得动态规划 (DP)This paper is concerned with the problem of a novel reinforcement learning algorithm for solving optimal average cost function. Q-learning is a reinforcement learning method to solve Markovian decision problems with incomplete information. This paper begins with solving optimal average cost function for each stage, studies the existence of optimal solution, the relationship between the optimal average cost function for each and initial state, and corresponding Bellman equation,proposes the relative value iteration Q-learning algorithm. It can make many results of dynamic programming algorithm for studying Q-learning directly.

关 键 词:Q学习 最优平均费用函数 Bellman方程 智能体 激励学习算法 人工智能 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象