基于Bi-LSTM的医学文本分词模型  被引量:1

Research on Chinese Word Segmentation in Medical Domain Based on Bi-Lstm

在线阅读下载全文

作  者:邵党国[1] 黄初升 马磊[1] 贺建峰[1] 易三莉[1] SHAO Dangguo;HUANG Chusheng;MA Lei;HE Jianfeng;YI Sanli(Faculty and Information Engineering and Automation,Kunming University of Science and Technology,Kunming Yunnan 650500,China)

机构地区:[1]昆明理工大学信息工程与自动化学院,云南昆明650500

出  处:《通信技术》2022年第2期151-159,共9页Communications Technology

基  金:国家自然科学基金项目(61702069,61741112)。

摘  要:中文分词(Chinese Word Segmentation,CWS)是自然语言处理(Natural Language Processing,NLP)中一项重要的基础任务。由于不同领域中文词汇的特殊性以及缺乏相关领域的标记数据,面向特定领域的分词任务是近年来中文分词研究面临的挑战之一。因此,提出了一种基于双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的分词模型,其中分别使用了大规模的中文通用语料以及少量中文医学语料训练模型来构建这种全新的分词模型。该模型在仅使用少量中文医学领域标记数据的情况下,在该领域的分词任务上获得了较好的分词效果,实验结果中的最优F1值为95.54%,相比单独使用中文医学语料训练的分词模型,有比较明显的提升。CWS(Chinese word segmentation)is an important basic task in NLP(Natural Language Processing).Due to the particularity of Chinese vocabulary in their respective fields and the lack of labeled data in related fields,Chinese word segmentation tasks for specific fields is a difficult point of research in recent years.Therefore,this paper proposes a Bi-LSTM-based word segmentation model,which combines a large-scale Chinese general corpus training model and a small number of Chinese medical corpus training models to build a new Chinese word segmentation model.On the premise of using only a small scale of labeled data in the Chinese medical domain,a better experimental result is obtained.The optimal F-score in the experimental results is 95.54%,,which is a fairly good improvement compared to the word segmentation model trained with Chinese medical corpus alone.

关 键 词:中文分词 自然语言处理 双向长短期记忆网络 领域分词 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象