面向中医古籍文本的领域自适应性无监督分词  被引量:3

Domain Adaptive Unsupervised Word Segmentation for Traditional Chinese Medicine Ancient Books

在线阅读下载全文

作  者:张素华 叶青[1] 程春雷[1] 邹静 ZHANG Su-hua;YE Qing;CHENG Chun-lei;ZOU Jing(School of Computer Science,Jiangxi University of Chinese Medicine,Nanchang 330004,China)

机构地区:[1]江西中医药大学计算机学院,江西南昌330004

出  处:《软件导刊》2022年第1期96-100,共5页Software Guide

基  金:国家重点研发计划项目(2019YFC1712301);江西省教育厅科学技术研究重点项目(GJJ201204);江西省教育厅科学技术研究项目(GJJ170727);江西中医药大学博士启动基金项目(2018WBZR021);江西省一流学科建设科研启动基金专项项目(JXSYLXK-ZHYI059)。

摘  要:中医古籍文本分词是中医古籍结构化表示及深度挖掘的基础性工作。有监督的中医古籍文本分词简易可行,但存在耗费大量人力物力、专业门槛高、主观性强、扩展性不好等问题。为此改进TextRank算法,提出ConnectRank算法,根据字符连通度实现中医古籍无监督分词。基于《伤寒杂病论》《黄帝内经》《难经》等700篇中医古籍文献语料设计实验。实验结果表明,该模型在中医古籍文本分词中较其他无监督分词模型有更好的分词效果,比传统的无监督分词方法提高了11.2%。Word segmentation is the basic work of structural representation and deep mining of ancient Chinese medicine books.The su⁃pervised word segmentation of ancient Chinese medicine literature is simple and feasible,but it needs a lot of manpower and material resources,and has high professional threshold,strong subjectivity and poor expansibility.Therefore,this paper improves the textrank algorithm,and proposes the connectrank algorithm.According to the character connectivity,the unsupervised segmentation of ancient Chinese medicine books can be realized.Based on the data of 700 ancient Chinese medicine books,such as treatise on febrile diseas⁃es,Huangdi Neijing and Nanjing,the experiment is designed,which is 11.2%higher than the traditional unsupervised word segmenta⁃tion method.The results show that the model has better word segmentation effect than other unsupervised word segmentation models.

关 键 词:中医古籍文献 ConnectRank算法 无监督分词 字符连通度 领域自适应性 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象