快速混合Web文档聚类被引量：3

Fast hybrid clustering for Web documents

机构地区：[1]重庆大学计算机学院,重庆400044 [2]后勤工程学院,重庆400016

出　　处：《计算机工程与应用》2010年第22期12-15,共4页Computer Engineering and Applications

基　　金：国家科技支撑计划No.2007BAH08B04;重庆市科技支撑计划No.2008AC20084~~

摘　　要：提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。A fast hybrid clustering algorithm for Web documents clustering is proposed which optimizes the initial center val- ues of K-means algorithm through STC algorithm.Firstly,the initial center values are extracted after the Web document set is clustered by STC algorithm.Secondly,by mapping the each internal node of suffix tree into M-dimensional VSM,each fea- ture term weights is computed using TF-IDF extended with phrases.Finally, the final result is generated by K-means algo- rithm.The evaluation experiments indicate that the new hybrid algorithm is more effective on clustering documents than ordi- nary K-means and STC algorithm.Moreover,it is as fast as K-means and STC algorithm.

关键词：聚类算法 K-MEANS算法后缀树 WEB文档聚类基于短语的相似度

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

快速混合Web文档聚类被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

快速混合Web文档聚类 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

快速混合Web文档聚类被引量：3