检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:邵党国[1] 黄初升 马磊[1] 贺建峰[1] 易三莉[1] SHAO Dangguo;HUANG Chusheng;MA Lei;HE Jianfeng;YI Sanli(Faculty and Information Engineering and Automation,Kunming University of Science and Technology,Kunming Yunnan 650500,China)
机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500
出 处:《通信技术》2022年第2期151-159,共9页Communications Technology
基 金:国家自然科学基金项目(61702069,61741112)。
摘 要:中文分词(Chinese Word Segmentation,CWS)是自然语言处理(Natural Language Processing,NLP)中一项重要的基础任务。由于不同领域中文词汇的特殊性以及缺乏相关领域的标记数据,面向特定领域的分词任务是近年来中文分词研究面临的挑战之一。因此,提出了一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的分词模型,其中分别使用了大规模的中文通用语料以及少量中文医学语料训练模型来构建这种全新的分词模型。该模型在仅使用少量中文医学领域标记数据的情况下,在该领域的分词任务上获得了较好的分词效果,实验结果中的最优F1值为95.54%,相比单独使用中文医学语料训练的分词模型,有比较明显的提升。CWS(Chinese word segmentation)is an important basic task in NLP(Natural Language Processing).Due to the particularity of Chinese vocabulary in their respective fields and the lack of labeled data in related fields,Chinese word segmentation tasks for specific fields is a difficult point of research in recent years.Therefore,this paper proposes a Bi-LSTM-based word segmentation model,which combines a large-scale Chinese general corpus training model and a small number of Chinese medical corpus training models to build a new Chinese word segmentation model.On the premise of using only a small scale of labeled data in the Chinese medical domain,a better experimental result is obtained.The optimal F-score in the experimental results is 95.54%,,which is a fairly good improvement compared to the word segmentation model trained with Chinese medical corpus alone.
关 键 词:中文分词 自然语言处理 双向长短期记忆网络 领域分词
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.33