基于频繁词集和k-Means的Web文本聚类混合算法  被引量:6

A Hybrid Algorithm for Web Document Clustering Based on Frequent Term Sets and k-Means

在线阅读下载全文

作  者:王乐[1] 田李[1] 贾焰[1] 韩伟红[1] 

机构地区:[1]国防科技大学计算机学院,湖南长沙410073

出  处:《计算机工程与科学》2008年第8期92-96,119,共6页Computer Engineering & Science

基  金:国家863计划资助项目(2006AA01Z451;2006AA10Z237)

摘  要:当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。In order to conquer the major challenges of the current web document clustering, i. e. huge volume of documents, high dimensional process and understandability of the clustering results, we propose a simple hybrid algorithm called topHDC based on top- k frequent term sets and k -means. Top- k frequent term sets are used to produce k initial clusters, which axe further refined by k -means. The understandable description of clustering is provided by k frequent term sets. Experimental results on two public datasets indicate that topHDC outperforms other two representative clustering algorithms both on efficiency and effectiveness.

关 键 词:文本挖掘 聚类 频繁词集 K-MEANS 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象