检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:孔燕 吴晓聪 芮烨锋 史鸿远 KONG Yan;WU Xiao-cong;RUI Ye-feng;SHI Hong-yuan(School of Computer Science,Nanjing University of Information Science and Technology,Nanjing 210044,China;Engineering Research Center of Digital Forensics,Ministry of Education,Nanjing University of Information Science and Technology,Nanjing 210044,China)
机构地区:[1]南京信息工程大学计算机学院,南京210044 [2]南京信息工程大学数字取证教育部工程研究中心,南京210044
出 处:《信息技术》2024年第5期66-72,80,共8页Information Technology
基 金:国家自然科学基金(61602254)。
摘 要:基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU神经网络处理序列动作。经实验表明,该算法训练时间比传统DQN算法缩短了13%,在“地主”和“农民”位置上的平均胜率为70%和75%,高于DQN算法的28%和60%,证明了改进算法在上述部分指标方面的优势。Based on the problems of some existing methods such as long training time,large action space and low success rate in card games,an improved method for the network architecture and encoded mode of DDQN algorithm is proposed.This method uses binary thought to encode the cards,divides the neural network into the main card neural network and the kicker card neural network based on the card splitting method,and adds GRU neural network to process the sequence actions.The experiment shows that the training time of the algorithm is 13%shorter than that of the traditional DQN algorithm,and the average winning rate in the‘landlord’and the‘farmer’positions is 70%and 75%,higher than that of the DQN algorithm by 28%and 60%,which proves the advantages of the improved algorithm in some of the above indicators.
关 键 词:深度强化学习 Double deep Q-learning 计算机博弈 Gate Recurrent Unit神经网络 大规模离散动作空间
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38