基于命名实体n-gram图的文本相似性度量  

Text Similarity Measurement Based on n-gram Graph of Named Entity

在线阅读下载全文

作  者:于营[1,2] 周显春[1,2] 贾树文[3] Yu Ying;Zhou Xianchun;Jia Shuwen(Information and Intelligent Engineering College,University of Sanya,Sanya 572000;Rong Chunming Academician Workstation,University of Sanya,Sanya 572000;Saxo Financial Technology Business College,University of Sanya,Sanya 572000)

机构地区:[1]三亚学院信息与智能工程学院,三亚572000 [2]三亚学院容淳铭院士工作站,三亚572000 [3]三亚学院盛宝金融科技商学院,三亚572000

出  处:《现代计算机》2022年第2期73-77,共5页Modern Computer

基  金:海南省自然科学基金青年项目(621QN270)。

摘  要:文本比较在自然语言处理中应用广泛。本文提出了一种新的文本相似性度量方法,该方法利用从文本和n-gram图中提取的命名实体信息来表示文档,使用OpenCalais作为命名实体识别服务,使用JInsect工具箱来构造和管理n-gram,使用文本聚类算法k-Means进行文本相似性度量,使用各种聚类有效性指标对生成的聚类进行评估。Text comparison is widely used in NLP(Natural Language Processing). This paper proposes a new text similarity measurement method, which uses the named entity information extracted from the text and N-gram graph to represent the document, uses OpenCalais to recognize the named entity, uses JInsect to construct and manage n-gram, and uses the text clustering algorithm k-means to measure the text similarity, and uses various cluster validity indexes to evaluate the generated clusters.

关 键 词:自然语言处理 n-gram图 文本聚类 文本相似性度量 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象