Fuzzy c-means text clustering based on topic concept sub-space  被引量:3

基于主题概念空间的文本模糊c-均值聚类方法(英文)

在线阅读下载全文

作  者:吉翔华[1] 陈超[2] 邵正荣[2] 俞能海[1] 

机构地区:[1]中国科学技术大学多媒体计算与通信教育部-微软重点实验,合肥230027 [2]中国科学技术大学图书馆,合肥230027

出  处:《Journal of Southeast University(English Edition)》2007年第3期439-442,共4页东南大学学报(英文版)

基  金:The National Natural Science Foundation of China(No60672056);Open Fund of MOE-MS Key Laboratory of Multime-dia Computing and Communication(No06120809)

摘  要:To improve the accuracy of text clustering, fuzzy c-means clustering based on topic concept sub-space (TCS2FCM) is introduced for classifying texts. Five evaluation functions are combined to extract key phrases. Concept phrases, as well as the descriptions of final clusters, are presented using WordNet origin from key phrases. Initial centers and membership matrix are the most important factors affecting clustering performance. Orthogonal concept topic sub-spaces are built with the topic concept phrases representing topics of the texts and the initialization of centers and the membership matrix depend on the concept vectors in sub-spaces. The results show that, different from random initialization of traditional fuzzy c-means clustering, the initialization related to text content contributions can improve clustering precision.为了改善文本聚类的准确度,提出用基于主题概念子空间的模糊c-均值聚类(TCS2FCM)方法来分类文本.采用5个评估函数的加权值来提取关键短语;利用WordNet对相应的关键短语提取概念短语并生成最后的类别描述.初始中心和初始隶属度矩阵的建立是决定模糊c-均值聚类效果的关键,使用能够代表文本主题的概念短语来建立相互正交的主题概念子空间,利用主题子空间中的概念向量来初始化聚类中心和隶属度矩阵.实验结果表明:不同于传统模糊c-均值聚类的随机化初始,与文本内容相关的初始化有助于改进最后的聚类结果,提高聚类精度.

关 键 词:TCS2FCM topic concept space fuzzy c-means clustering text clustering 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象