二分K均值聚类算法优化及并行化研究  被引量:23

Research on Bisecting K-Means Clustering Algorithm Optimization and Parallelism

在线阅读下载全文

作  者:张军伟[1] 王念滨[1] 黄少滨[1] 蔄世明[2] 

机构地区:[1]哈尔滨工程大学计算机科学与技术学院,哈尔滨150001 [2]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001

出  处:《计算机工程》2011年第17期23-25,共3页Computer Engineering

基  金:国家自然科学基金资助项目(60973028);国家科技支撑计划基金资助项目(2009BAH42B02)

摘  要:二分K均值聚类算法在二分聚类过程中的初始质心选取速度方面存在不足。为此,提出以极大距离点作为二分聚类初始质心的思想,提升算法的运行速度。研究如何在群集系统中进行快速聚类,根据二分K均值聚类算法的特性,采用数据并行的思想和均匀划分的策略,对算法进行并行化处理。实验结果表明,改进后的算法能获得比较理想的加速比和较高的使用效率。Considering the insufficiency of clustering speed which exists in the selecting the initial centroid of Bisecting K-Means(BKM) clustering algorithm,the idea of selecting the two patterns with distance maximum as the initial cluster centroid is implemented.An in-depth study and analysis is carried out on how to accelerate clustering in clustering system.According to the characteristics of BKM,the parallelism algorithm based on data parallelism and symmetric data-partition is put forward.Experimental results show that the improvement of algorithm gets ideal speedup performance and efficiency.

关 键 词:数据挖掘 聚类算法 二分K均值 并行化 群集系统 

分 类 号:TP338.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象