文档聚类中k-means算法的一种改进算法被引量：29

An Improved k-means Algorithm for Documents Clustering

机构地区：[1]北京大学计算机研究所文字信息处理技术国家重点实验室,北京100871

出　　处：《计算机工程》2003年第2期102-103,157,共3页Computer Engineering

摘　　要：介绍了文档聚类中基于划分的k-means算法，k-means算法适合于海量文档集的处理，但它对孤立点很敏感。为此，文章提出将聚类均值点与聚类种子相分离的思想，并具体给出了基于该思想的对k-means算法的改进算法。实验表明，该改进算法比原k-means算法具有更高的准确性和稳定性。This paper first introduces the partitioning-based k-means algorithms for documents clustering. The k-means algorithm adapts to processing the vast amount of documents, but it is sensitive to outliers. So this paper puts forward an idea to separate the clustering centroid from the clustering seed and brings forward an algorithm based on this idea to improve the k-means algorithm. The paper shows the results of the experiments to prove that this algorithm is more veracious and stable than the k-means algorighm.

关键词：文档聚类 K-MEANS算法划分聚类算法数据库

分类号：TP311.13[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

文档聚类中k-means算法的一种改进算法被引量：29

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

文档聚类中k-means算法的一种改进算法 被引量：29

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

文档聚类中k-means算法的一种改进算法被引量：29