一种无需手工标注的半监督学习关键词抽取方法  被引量:1

Semi-supervised Learning Key-phrase Extraction Method Without Manual Annotation

在线阅读下载全文

作  者:蔡茂东 沈国华[1,2,3] 黄志球 CAI Maodong;SHEN Guohua;HUANG Zhiqiu(College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China;Key Laboratory of Safety-Critical Software,Ministry of Industry and Information Technology,Nanjing 211106,China;Collaborative Innovation Center of Novel Software Technology and Industrialization,Nanjing 210093,China)

机构地区:[1]南京航空航天大学计算机科学与技术学院,南京210016 [2]南京航空航天大学高安全系统的软件开发与验证技术工业和信息化部重点实验室,南京211106 [3]软件新技术与产业化协同创新中心,南京210093

出  处:《小型微型计算机系统》2024年第1期69-74,共6页Journal of Chinese Computer Systems

基  金:国家重点研发计划项目(2018YFB1003902)资助;国家自然科学基金项目(61772270)资助;民航应急科学与技术重点实验室开放基金项目(NJ2022022)资助.

摘  要:关键词的自动抽取技术是为了满足信息时代人们对特定领域知识快速便捷获取的需求.它也是机器翻译、信息检索、知识图谱构建等应用场景中的关键基础问题和研究热点.监督学习方法的效果是建立在有现成的大量的带有准确标注的高质量的数据集的前提上的,无法在低资源环境下快速运用.本文提出了一种考虑词频、词长以及词大小写特征的无监督算法以及结合了该无监督算法的自扩展迭代的半监督学习关键词抽取方法.半监督学习方法在同样无需手工标注关键词的前提下,相比无监督算法具有更高的F1值.Automatic key-phrase extraction technology is to meet people′s demand for quick and convenient acquisition of specific domain knowledge in the information age.It is also a key basic problem and research hots-pot in machine translation,information retrieval,knowledge graph construction and other application scenarios.Supervised learning,though it works well,assumes that large quantities of high-quality data sets with accurate labels are readily available and cannot be applied quickly in low-resource environments.This paper proposed an unsupervised algorithm which considers phrase frequency,phrase length and phrase case characteristics,and a self-expanding iteration semi-supervised learning key-phrase extraction method that combines the unsupervised algorithm.The semi-supervised learning method has a higher F1 value than the unsupervised algorithm on the premise that both them do not need to annotate key-phrases manually.

关 键 词:半监督学习 无监督算法 自扩展迭代 低资源环境 关键词抽取 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象