检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]同济大学电子与信息工程学院计算机科学与技术系,上海201804
出 处:《计算机技术与发展》2010年第12期126-129,136,共5页Computer Technology and Development
摘 要:文中研究的是文档聚类的方法,即将给定文档集合中的文档进行分类,以达到准确聚类的目的。提出了一种将模糊C均值(FCM)和改进的LSA(Latent Semantic Analysis)相结合进行文档聚类的方法。采用改进的词语特征提取方法构建词-文档矩阵,对该词-文档矩阵进行奇异值分解,从传统的VSM向量空间中提取文本的潜在语义空间,进而将高维的文档向量映射为低维空间的语义向量,文档之间相似度的计算采用文档语义向量的余弦表示。然后采用模糊C均值根据上述计算文档相似度的结果对文档进行聚类。针对校园论坛中的文档数据进行聚类,该方法降低了处理的复杂度同时提高了相似度计算的准确性。实验结果表明该方法对目标文档的聚类有较好的效果,聚类准确性较高。This paper is focused on the methods of document clustering,that is to classify the documents in the document set so as to achieve the aim of accurate clustering.Proposed a method which combines the Fuzzy C-means with improved LSA to do document clustering.A new method of feature extraction was used to construct term-document matrix.Do singular value decomposition for the matrix,extract the document's latent semantic space from the traditional VSM vector space so as to change the document vector of high dimension to semantic vector of low dimension.Use cosine between the documents semantic vectors to present the similarity between documents.Then use Fuzzy C-means to do document clustering based on the results of similarity calculation above.Do the experiment on the documents data of campus forum,this method reduces the computer processing complexity and improves the veracity of similarity calculation.Experimental result shows that the proposed method can get better document clustering effect and the accuracy of clustering is high.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.219