检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]重庆大学计算机学院,重庆400044 [2]后勤工程学院,重庆400016
出 处:《计算机工程与应用》2010年第22期12-15,共4页Computer Engineering and Applications
基 金:国家科技支撑计划No.2007BAH08B04;重庆市科技支撑计划No.2008AC20084~~
摘 要:提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。A fast hybrid clustering algorithm for Web documents clustering is proposed which optimizes the initial center val- ues of K-means algorithm through STC algorithm.Firstly,the initial center values are extracted after the Web document set is clustered by STC algorithm.Secondly,by mapping the each internal node of suffix tree into M-dimensional VSM,each fea- ture term weights is computed using TF-IDF extended with phrases.Finally, the final result is generated by K-means algo- rithm.The evaluation experiments indicate that the new hybrid algorithm is more effective on clustering documents than ordi- nary K-means and STC algorithm.Moreover,it is as fast as K-means and STC algorithm.
关 键 词:聚类算法 K-MEANS算法 后缀树 WEB文档聚类 基于短语的相似度
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7