一种优化初始中心点的K平均文本聚类算法  被引量:6

Variant of K-means algorithm for document clustering: optimization initial centers

在线阅读下载全文

作  者:赵万磊[1] 王永吉[2] 张学杰[1] 李娟[2] 

机构地区:[1]云南大学信息学院,云南昆明650091 [2]中国科学院软件研究所,北京100080

出  处:《计算机应用》2005年第9期2037-2040,共4页journal of Computer Applications

基  金:国家863计划资助项目(2001AA1131802002AA116080)

摘  要:文本聚类在信息过滤,网页分类中有着很好的应用。但它面临数据量大,特征维度高的难点。由于K平均算法易于实现,对数据依赖度底,在文本聚类中得到应用。然而,传统K平均以及它的变种会产生有较大波动的聚类结果。因此对K平均算法进行了改进,通过优化聚类初始中心的选择,得到一种适合对文本数据聚类分析的改进算法。大量实验显示,该算法可以生成质量较高而且聚类质量波动性较小的结果。Document clustering had been employed in information filtering, web page classification and so on. K-means is one of the widely used clustering techniques because of its simplicity and high scalability. Owing to its random selection of initial centers, unstable results were often got when using traditional K-means and its variants. Here a technique of optimization initial centers of clustering was proposed. Combined with incremental iteration, it can produce clustering results with high purity, low entropy as well as good stableness.

关 键 词:优化 文本聚类 K平均 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象