基于相似中心的k-cmeans文本聚类算法  被引量:12

k-cmeans text clustering algorithm based on similar centroid

在线阅读下载全文

作  者:许厚金[1] 刘永炎[2] 邓成玉[1] 刘永山[1] 

机构地区:[1]燕山大学信息科学与工程学院,河北秦皇岛066004 [2]张家口教育学院数学系,河北张家口075000

出  处:《计算机工程与设计》2010年第8期1802-1805,共4页Computer Engineering and Design

基  金:工信部2007电子信息产业发展基金项目(工信部运[2007]97号)

摘  要:针对k-means聚类算法只能保证收敛到局部最优,导致聚类结果对初始聚类中心敏感的问题,提出了一种基于相似中心的文本聚类算法。首先,度量文档之间的相似性,然后按照文档之间的相似性递减排序,选择序列最前面的k个文档作为初始聚类中心,对于每个剩余的文档(没有被选为初始簇中心的文档)根据其与存在的簇中心的相似性,将其分配到相似性最大的簇中,更新簇均值,连续迭代,直至均值不变,从而得到更加稳定的聚类结果。实验结果表明,提出的算法在宏平均聚类精度和宏平均召回率上有显著提高,产生了质量较好的聚类效果。The k-means clustering algorithm can only guarantee convergence to a local optimum, which led to the results of clustering is sensitive for initial clustering center, an improved centroid-based text clustering algorithm is proposed. First, the similarity between documents is calculated, then centers at the first k documents of the sequence is selected, which is sorted by similarity descending, according to similarity between every document which is not selected as initial cluster center and existent cluster center, assigned the document to a cluster having the largest similarity, updating cluster mean and iterating continuously until no change. Finally, the more stable clustering result is gotten. The comparison of experimental results show that the proposed algorithm performs is better in the marco average clustering precision and marco average recall rate, gets better quality of clustering results.

关 键 词:聚类 k-cmeans算法 相似性度量 宏平均聚类精度 宏平均召回率 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象