检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张素华 叶青[1] 程春雷[1] 邹静 ZHANG Su-hua;YE Qing;CHENG Chun-lei;ZOU Jing(School of Computer Science,Jiangxi University of Chinese Medicine,Nanchang 330004,China)
机构地区:[1]江西中医药大学计算机学院,江西南昌330004
出 处:《软件导刊》2022年第1期96-100,共5页Software Guide
基 金:国家重点研发计划项目(2019YFC1712301);江西省教育厅科学技术研究重点项目(GJJ201204);江西省教育厅科学技术研究项目(GJJ170727);江西中医药大学博士启动基金项目(2018WBZR021);江西省一流学科建设科研启动基金专项项目(JXSYLXK-ZHYI059)。
摘 要:中医古籍文本分词是中医古籍结构化表示及深度挖掘的基础性工作。有监督的中医古籍文本分词简易可行,但存在耗费大量人力物力、专业门槛高、主观性强、扩展性不好等问题。为此改进TextRank算法,提出ConnectRank算法,根据字符连通度实现中医古籍无监督分词。基于《伤寒杂病论》《黄帝内经》《难经》等700篇中医古籍文献语料设计实验。实验结果表明,该模型在中医古籍文本分词中较其他无监督分词模型有更好的分词效果,比传统的无监督分词方法提高了11.2%。Word segmentation is the basic work of structural representation and deep mining of ancient Chinese medicine books.The su⁃pervised word segmentation of ancient Chinese medicine literature is simple and feasible,but it needs a lot of manpower and material resources,and has high professional threshold,strong subjectivity and poor expansibility.Therefore,this paper improves the textrank algorithm,and proposes the connectrank algorithm.According to the character connectivity,the unsupervised segmentation of ancient Chinese medicine books can be realized.Based on the data of 700 ancient Chinese medicine books,such as treatise on febrile diseas⁃es,Huangdi Neijing and Nanjing,the experiment is designed,which is 11.2%higher than the traditional unsupervised word segmenta⁃tion method.The results show that the model has better word segmentation effect than other unsupervised word segmentation models.
关 键 词:中医古籍文献 ConnectRank算法 无监督分词 字符连通度 领域自适应性
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.20