一种德州扑克博弈的决策模型  被引量:1

A Decision Model of Texas Hold’em Poker

在线阅读下载全文

作  者:李轶 彭丽蓉[2] 杜松 伍帆 王森 LI Yi;PENG Li-rong;DU Song;WU Fan;WANG Sen(School of Artificial Intelligence,Chongqing University of Technology,Chongqing 401135,China;School of Big Data and Artificial Intelligence,Chongqing Industry Polytechnic College,Chongqing 401120,China)

机构地区:[1]重庆理工大学两江人工智能学院,重庆401135 [2]重庆工业职业技术学院大数据与人工智能学院,重庆401120

出  处:《软件导刊》2021年第5期16-19,共4页Software Guide

基  金:国家自然科学基金青年科学基金项目(61502065);重庆理工大学研究生创新基金项目(YCX2016238)。

摘  要:为解决传统方法难以处理德州扑克巨大的状态空间,以及强化学习中人工神经网络收敛性差等问题,以强化学习框架为基础,采用AC算法,引入专家先验知识预训练网络参数,以加速收敛。然后通过自博弈的方式让模型开始自我对战,不断更新模型中的神经网络参数,以提高模型的决策准确度。实验数据表明,模型的损失函数值在先验知识的影响下,收敛性得到了提升。在与其它版本智能体的对弈中,最终版本模型每局平均收益都在1个大盲注筹码以上。因此,应用该决策模型可构建具有一定实力的德州扑克智能体。In order to solve the problem that traditional methods are difficult to deal with the huge state space of Texas Hold’em poker,and the convergence of artificial neural network in reinforcement learning is poor,the AC algorithm is adopted based on the reinforcement learning framework,and the prior knowledge of experts is introduced to pre-train the network parameters to accelerate the convergence.Then,the self game method is used to make the model start to fight against itself,and constantly update the neural network parameters in the model,so as to improve the decision accuracy of the model.The experimental data show that the convergence of the loss function value of the model is improved under the influence of prior knowledge.In the game with other versions of agents,the average return of each game of the final version of the model is more than one big blind chip.Therefore,the application of the decision model can build a certain strength of Texas Hold’em poker agent.

关 键 词:非完备信息机器博弈 强化学习 德州扑克 决策模型 

分 类 号:TP303[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象