检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王星[1] 于丽美 陈吉[1] WANG Xing;YU Li-mei;CHEN Ji(School of Electronic and Information Engineering,Liaoning Technical University,Huludao 125105,China)
机构地区:[1]辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛125105
出 处:《小型微型计算机系统》2022年第2期271-277,共7页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(62006107,61402212)资助;辽宁省高等学校杰出青年学者成长计划项目(LJQ2015045)资助;中国博士后基金面上项目(2016M591452)资助;辽宁省自然科学基金面上项目(2015020098)资助。
摘 要:作为自然语言处理任务的基础,中文分词的准确率直接影响命名实体识别、信息检索等任务的效果.针对现有分词模型使用的静态词向量精确表征能力较差和专业领域分词中模型适应性差等问题,本文提出一种使用字根信息为辅助特征的中文分词模型.模型分为主任务和辅助任务,主任务中使用ALBERT语言模型训练词向量,利用去池化卷积残差神经网络提取特征,与辅助任务抽取的特征融合后进行分词.辅助任务使用字根向量表示文本,通过浅层卷积提取特征,进行序列标注.借助损失函数利用辅助任务对主任务进行纠正,协助主任务实现中文分词.在BakeOff2005语料库的4个数据集以及两个小型法律文书数据集上进行实验,实验表明该文提出的分词模型在多数大型数据集上实验效果达到最优,并且在小型法律数据集上F1值最高达到97.90%.As the basis of Natural Language Processing tasks,the accuracy of Chinese word segmentation(CWS)directly affects the effect of Named Entity Recognition,Information Retrieval and other tasks.Focusing on the issue that the static word representation has poor representation ability,and the poor adaptability of the CWS model in the professional domain.This paper proposes a novel method for CWS based on Convolutional Neural Networks(CNN)without pooling layer,and fused with radical information.We set up main task and auxiliary task for this method.In the main task,ALBERT is used to train the word vector,and the convolution residual neural network without pooling is used to extract features,and then used the Chinese radical information from the auxiliary task to enrich input features of the main task.The auxiliary task uses the Chinese radical vector to represent the text,extracts features through shallow convolution,carries out sequence labeling,and use the loss function to tune the segmentation results of the main task.Experimented on four data sets of BakeOff2005 corpus and two small legal data sets.The experimental results show that the proposed method achieves the betterperformance under the comprehensive analysis of time and accuracy on large-scale annotated data sets,and the highest F-score reaches 97.90%on legal data sets.
关 键 词:中文分词 ALBERT 汉字字根 残差网络 深度学习
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.144.41.223