融合字根信息的卷积神经网络中文分词方法  被引量:4

Chinese Word Segmentation Based on Convolution Neural Network with Radical Information

在线阅读下载全文

作  者:王星[1] 于丽美 陈吉[1] WANG Xing;YU Li-mei;CHEN Ji(School of Electronic and Information Engineering,Liaoning Technical University,Huludao 125105,China)

机构地区:[1]辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛125105

出  处:《小型微型计算机系统》2022年第2期271-277,共7页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(62006107,61402212)资助;辽宁省高等学校杰出青年学者成长计划项目(LJQ2015045)资助;中国博士后基金面上项目(2016M591452)资助;辽宁省自然科学基金面上项目(2015020098)资助。

摘  要:作为自然语言处理任务的基础,中文分词的准确率直接影响命名实体识别、信息检索等任务的效果.针对现有分词模型使用的静态词向量精确表征能力较差和专业领域分词中模型适应性差等问题,本文提出一种使用字根信息为辅助特征的中文分词模型.模型分为主任务和辅助任务,主任务中使用ALBERT语言模型训练词向量,利用去池化卷积残差神经网络提取特征,与辅助任务抽取的特征融合后进行分词.辅助任务使用字根向量表示文本,通过浅层卷积提取特征,进行序列标注.借助损失函数利用辅助任务对主任务进行纠正,协助主任务实现中文分词.在BakeOff2005语料库的4个数据集以及两个小型法律文书数据集上进行实验,实验表明该文提出的分词模型在多数大型数据集上实验效果达到最优,并且在小型法律数据集上F1值最高达到97.90%.As the basis of Natural Language Processing tasks,the accuracy of Chinese word segmentation(CWS)directly affects the effect of Named Entity Recognition,Information Retrieval and other tasks.Focusing on the issue that the static word representation has poor representation ability,and the poor adaptability of the CWS model in the professional domain.This paper proposes a novel method for CWS based on Convolutional Neural Networks(CNN)without pooling layer,and fused with radical information.We set up main task and auxiliary task for this method.In the main task,ALBERT is used to train the word vector,and the convolution residual neural network without pooling is used to extract features,and then used the Chinese radical information from the auxiliary task to enrich input features of the main task.The auxiliary task uses the Chinese radical vector to represent the text,extracts features through shallow convolution,carries out sequence labeling,and use the loss function to tune the segmentation results of the main task.Experimented on four data sets of BakeOff2005 corpus and two small legal data sets.The experimental results show that the proposed method achieves the betterperformance under the comprehensive analysis of time and accuracy on large-scale annotated data sets,and the highest F-score reaches 97.90%on legal data sets.

关 键 词:中文分词 ALBERT 汉字字根 残差网络 深度学习 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象