检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:谢海华 陈雪飞 都仪敏 吕肖庆 汤帜[1,2] XIE Haihua;CHEN Xuefei;DU Yimin;LYU Xiaoqing;TANG Zhi(State Key Laboratory of Digital Publishing Technology,Peking University Founder Group Co.LTD.,Beijing 100871,China;Wangxuan Institute of Computer Technology,Peking University,Beijing 100871,China;Beijing Institute of Mathematical Sciences and Applications,Beijing 101407,China)
机构地区:[1]北大方正信息产业集团有限公司数字出版技术国家重点实验室,北京100871 [2]北京大学王选计算机研究所,北京100871 [3]北京雁栖湖应用数学研究院,北京101407
出 处:《中文信息学报》2022年第4期57-65,共9页Journal of Chinese Information Processing
基 金:国家重点研发计划(2019YFB1406302);国家自然科学基金(61472014,61573028,61432020);北京市自然科学基金(4142023,L192024);北京新星计划项目(XX2015B010)。
摘 要:关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率。对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果。The purpose of key phrase extraction is to extract a set of key phrases that can express the theme and contents of a document,which is of great significance for information retrieval and document classification.This paper proposes a semi supervised approach of Chinese key phrase extraction,on the basis of graph model and statistical features.The proposed approach applies the pre-training language model to represent phrases and articles,so as to reduce the dependence on a large number of annotated training data.Furthermore,a graph model is designed to represent the similarity space of candidate key phrases and iteratively calculate the importance of each phrase.Meanwhile,multiple statistical features are combined to further improve the accuracy of key phrase evaluation.The experimental results show that our proposed approach is more effective than the baselire methods for Chinese key phrase extraction.
关 键 词:中文关键短语抽取 半监督式方法 图模型 统计特征
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7