基于频繁词集和k-Means的Web文本聚类混合算法被引量：6

A Hybrid Algorithm for Web Document Clustering Based on Frequent Term Sets and k-Means

出　　处：《计算机工程与科学》2008年第8期92-96,119,共6页Computer Engineering & Science

基　　金：国家863计划资助项目(2006AA01Z451;2006AA10Z237)

摘　　要：当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。In order to conquer the major challenges of the current web document clustering, i. e. huge volume of documents, high dimensional process and understandability of the clustering results, we propose a simple hybrid algorithm called topHDC based on top- k frequent term sets and k -means. Top- k frequent term sets are used to produce k initial clusters, which axe further refined by k -means. The understandable description of clustering is provided by k frequent term sets. Experimental results on two public datasets indicate that topHDC outperforms other two representative clustering algorithms both on efficiency and effectiveness.

关键词：文本挖掘聚类频繁词集 K-MEANS

分类号：TP311[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于频繁词集和k-Means的Web文本聚类混合算法被引量：6

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于频繁词集和k-Means的Web文本聚类混合算法 被引量：6

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于频繁词集和k-Means的Web文本聚类混合算法被引量：6