基于Transformer编码器的中文命名实体识别  被引量:15

Chinese named entity recognition based on Transformer encoder

在线阅读下载全文

作  者:郭晓然[1] 罗平 王维兰[3] GUO Xiao-ran;LUO Ping;WANG Wei-lan(School of Mathematics and Computer Science,Northwest Minzu University,Lanzhou 730030,China;School of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China;Key Laboratory of Chinas Ethnic Languages and Information Technology Ministry of Education,Northwest Minzu University,Lanzhou 730030,China)

机构地区:[1]西北民族大学数学与计算机科学学院,兰州730030 [2]兰州交通大学电子与信息工程学院,兰州730070 [3]西北民族大学中国民族语言文字信息技术教育部重点实验室,兰州730030

出  处:《吉林大学学报(工学版)》2021年第3期989-995,共7页Journal of Jilin University:Engineering and Technology Edition

基  金:国家自然科学基金项目(61862057);国家民委创新团队计划项目([2018]98号);中央高校国家民委专项项目(1001160448);中央高校基本科研业务费项目(31920210090)。

摘  要:提出了一种基于Transformer编码器和BiLSTM的字级别中文命名实体识别方法,将字向量与位置编码向量拼接成联合向量作为字表示层,避免了字向量信息的损失和位置信息的丢失;利用BiLSTM为联合向量融入方向性信息,引入Transformer编码器进一步抽取字间关系特征。实验结果表明,该方法在MSRA数据集和唐卡数据集上的F1值分别达到了81.39%和86.99%,有效提升了中文命名实体识别的效果。This paper proposes a Chinese named entity recognition method based on Transformer encoder and BiLSTM.This method uses a joint vector as the word representation layer by combining the word embedding and the position coding vector to avoid the losses of the word embedding information and the position information.The directional information is integrated into the joint vector using BiLSTM.The Transformer encoder is introduced to further extract the word relationship features.The experimental results show that the F value of this method on the general MSRA and Thangka domain data sets reaches81.39%and 86.99%respectively,which effectively improve the effect of Chinese named entity recognition.

关 键 词:命名实体识别 Transformer编码器 BiLSTM 位置编码 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象