基于BiLSTM-CRF的中医文言文文献分词模型研究  被引量:15

Chinese medicine literature word segmentation based on BiLSTM-CRF

在线阅读下载全文

作  者:王莉军[1,2] 周越 桂婕 翟云[4] Wang Lijun;Zhou Yue;Gui Jie;Zhai Yun(Institute of Scientific&Technical Information of China,Beijing 100038,China;Key Laboratory of Rich-Media Knowledge Organization&Service of Digital Publishing Content,Beijing 100038,China;University of Science&Technology Beijing,Beijing 100083,China;E-Government Research Center,Party School of the Central Committee of C.P.C(National Academy of Governance),Beijing 100089,China)

机构地区:[1]中国科学技术信息研究所,北京100038 [2]富媒体数字出版内容组织与知识服务重点实验室,北京100038 [3]北京科技大学,北京100083 [4]中央党校(国家行政学院)电子政务研究中心,北京100089

出  处:《计算机应用研究》2020年第11期3359-3362,3367,共5页Application Research of Computers

基  金:中国工程科技知识中心建设项目(CKCEST-2019-2-2);中信所重点工作项目(ZD2019-10);国家自然科学基金资助项目(61672178)。

摘  要:由于中医文献内容繁杂数目庞大、专业术语词汇较多,且包含使用文言文、古人口语等多样的书写方式,使用通用领域的分词器进行分词的效果较差。为了解决这一问题,构建了基于BiLSTM-CRF的模型对中医领域的文献尤其是文言文文献进行分词,并在中医领域文献上对比了BiLSTM-CRF模型、BiLSTM模型及主流通用中文分词器jieba、Ansj的分词结果。结果表明基于Bi-LSTM-CRF模型的分词取得了更优秀的分类性能和鲁棒性。Because of the cumbersome content of traditional Chinese medicine literature,many professional terms,and various writing methods like classical Chinese,the use of word segmentation in general fields is less effective.In order to solve this problem,this paper constructed the BiLSTM-CRF model to segment the literature in the field of Chinese medicine,especially the classical Chinese medicine literature.This paper compared the results of the BiLSTM-CRF model and the Bi-LSTM model and the segmentation results of the mainstream common Chinese word segmenters jieba and Ansj in the literature of traditional Chinese medicine.The results show that the segmentation based on BiLSTM-CRF model achieves better classification performance and robustness.

关 键 词:中医 分词 条件随机场 双向长短时记忆 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象