文本聚类中文本表示和相似度计算研究综述  被引量:23

A Survey on Text Representation and Similarity Calculation in Text Clustering

在线阅读下载全文

作  者:吴夙慧[1] 成颖[1] 郑彦宁[2] 潘云涛[2] 

机构地区:[1]南京大学信息管理系,江苏南京210093 [2]中国科学技术信息研究所,北京100038

出  处:《情报科学》2012年第4期622-627,共6页Information Science

基  金:国家社科基金项目(10CTQ027);教育部人文社会科学研究规划基金项目(07JA870006);中国科学技术信息研究所合作研究项目

摘  要:围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。The two basic problems of text clustering are text representation and similarity calculation.In this paper,We classified the different text representation models and the methods of similarity calculation and summarized them detailedly.This paper classified the present text representation models as VSM,language model,suffix tree model and ontology,classified the methods of similarity calculation as three categories,including VSM-based method,phrase-based method and ontology-based method.

关 键 词:文本聚类 文本表示 相似度计算 

分 类 号:G350[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象