基于模糊C均值和改进的LSA的文档聚类研究  被引量:5

Document Clustering Research Based on Fuzzy C-Means and Improved Latent Semantic Analysis

在线阅读下载全文

作  者:胡永丽[1] 龚沛曾[1] 

机构地区:[1]同济大学电子与信息工程学院计算机科学与技术系,上海201804

出  处:《计算机技术与发展》2010年第12期126-129,136,共5页Computer Technology and Development

摘  要:文中研究的是文档聚类的方法,即将给定文档集合中的文档进行分类,以达到准确聚类的目的。提出了一种将模糊C均值(FCM)和改进的LSA(Latent Semantic Analysis)相结合进行文档聚类的方法。采用改进的词语特征提取方法构建词-文档矩阵,对该词-文档矩阵进行奇异值分解,从传统的VSM向量空间中提取文本的潜在语义空间,进而将高维的文档向量映射为低维空间的语义向量,文档之间相似度的计算采用文档语义向量的余弦表示。然后采用模糊C均值根据上述计算文档相似度的结果对文档进行聚类。针对校园论坛中的文档数据进行聚类,该方法降低了处理的复杂度同时提高了相似度计算的准确性。实验结果表明该方法对目标文档的聚类有较好的效果,聚类准确性较高。This paper is focused on the methods of document clustering,that is to classify the documents in the document set so as to achieve the aim of accurate clustering.Proposed a method which combines the Fuzzy C-means with improved LSA to do document clustering.A new method of feature extraction was used to construct term-document matrix.Do singular value decomposition for the matrix,extract the document's latent semantic space from the traditional VSM vector space so as to change the document vector of high dimension to semantic vector of low dimension.Use cosine between the documents semantic vectors to present the similarity between documents.Then use Fuzzy C-means to do document clustering based on the results of similarity calculation above.Do the experiment on the documents data of campus forum,this method reduces the computer processing complexity and improves the veracity of similarity calculation.Experimental result shows that the proposed method can get better document clustering effect and the accuracy of clustering is high.

关 键 词:模糊C均值 LSA 文档聚类 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象