基于命名实体n-gram图的文本相似性度量

Text Similarity Measurement Based on n-gram Graph of Named Entity

作　　者：于营[1,2] 周显春[1,2] 贾树文[3] Yu Ying;Zhou Xianchun;Jia Shuwen(Information and Intelligent Engineering College,University of Sanya,Sanya 572000;Rong Chunming Academician Workstation,University of Sanya,Sanya 572000;Saxo Financial Technology Business College,University of Sanya,Sanya 572000)

机构地区：[1]三亚学院信息与智能工程学院,三亚572000 [2]三亚学院容淳铭院士工作站,三亚572000 [3]三亚学院盛宝金融科技商学院,三亚572000

出　　处：《现代计算机》2022年第2期73-77,共5页Modern Computer

基　　金：海南省自然科学基金青年项目(621QN270)。

摘　　要：文本比较在自然语言处理中应用广泛。本文提出了一种新的文本相似性度量方法,该方法利用从文本和n-gram图中提取的命名实体信息来表示文档,使用OpenCalais作为命名实体识别服务,使用JInsect工具箱来构造和管理n-gram,使用文本聚类算法k-Means进行文本相似性度量,使用各种聚类有效性指标对生成的聚类进行评估。Text comparison is widely used in NLP(Natural Language Processing). This paper proposes a new text similarity measurement method, which uses the named entity information extracted from the text and N-gram graph to represent the document, uses OpenCalais to recognize the named entity, uses JInsect to construct and manage n-gram, and uses the text clustering algorithm k-means to measure the text similarity, and uses various cluster validity indexes to evaluate the generated clusters.

关键词：自然语言处理 n-gram图文本聚类文本相似性度量

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于命名实体n-gram图的文本相似性度量

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于命名实体n-gram图的文本相似性度量

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索