基于Meta平衡的多Agent Q学习算法研究被引量：1

Research on Multi-agent Q Learning Algorithm Based on Meta Equilibrium

机构地区：[1]浙江工业大学计算机科学与技术学院,杭州310023 [2]浙江工业大学特种装备制造与先进加工技术教育部重点实验室,杭州310012

出　　处：《计算机科学》2012年第B06期261-264,共4页Computer Science

基　　金：国家自然科学基金项目(60874074);浙江省重大科技专项(2009C11039)资助

摘　　要：多Agent强化学习算法的研究一直以来大多都是针对于合作策略,而NashQ算法的提出对非合作策略的研究无疑是一个重要贡献。针对在多Agent系统中,Nash平衡无法确保求得的解是Pareto最优解及其计算复杂度较高的问题,提出了基于Meta平衡的MetaQ算法。与NashQ算法不同,MetaQ算法通过对自身行为的预处理以及对其它Agent行为的预测来获取共同行为的最优策略。最后通过研究及气候合作策略游戏实验,证明了MetaQ算法在解决非合作策略的问题中有着很好的理论解释和实验性能。Multi-agent reinforcement learning algorithms aim at cooperation strategy,while NashQ is frequently mentioned as a pivotal algorithm to the study of non-cooperative strategies.In multi-agent systems,Nash equilibrium can not ensure the solutions obtained Pareto optimal,besides,the algorithm with high computation complexity.MetaQ algorithm was proposed in this paper.It is different from NashQ that MetaQ finds out the optimal solution by the pre-treatment of its own behavior and the prediction of the others behavior.In the end,a game-climate cooperation strategy was used in this paper,and the results shows that MetaQ algorithm,with impressive performance,is fit for non-cooperative problem.

关键词：强化学习 Meta平衡 NashQ 多AGENT系统

分类号：TP181[自动化与计算机技术—控制理论与控制工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Meta平衡的多Agent Q学习算法研究被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Meta平衡的多Agent Q学习算法研究 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于Meta平衡的多Agent Q学习算法研究被引量：1