基于分治法的高维大数据集模糊聚类算法  被引量:5

Fuzzy Clustering Algorithm for High-dimensional Large Data Sets Based on Distributed Method

在线阅读下载全文

作  者:王宝文[1] 阎俊梅[1] 刘文远[1] 石岩[2] 

机构地区:[1]燕山大学信息学院,秦皇岛066004 [2]日本九州东海大学工程学院信息系统工程系

出  处:《计算机工程》2007年第24期60-62,共3页Computer Engineering

基  金:国家科技部高新技术计划资金资助项目(2005EJ000017);河北省科技研究与发展计划基金资助项目(02547015D);河北省普通高等学校博士科研资金资助项目(B2002118)

摘  要:将高维的大数据集随机分成若干个子集,对每个子集聚类采用一种基于遗传算法的高维数据模糊聚类方法。该方法引入了一个模糊非相似矩阵来表示高维样本之间的非相似程度,并将高维样本随机初始化到二维平面,利用遗传算法迭代优化二维样本的坐标值,实现二维样本之间的欧氏距离向样本间的模糊非相似度的趋近。将得到的最优的二维样本用模糊C-均值聚类(FCM)算法聚类,克服了聚类有效性对高维样本空间分布的依赖。实验仿真表明,该算法有较好的聚类效果,且极大地提高了聚类的速度。Data sets are randomly divided into several subsets. A high- dimensional datum fuzzy clustering method based on genetic algorithm is used to cluster the subsets, by importing a fuzzy dissimilar matrix to express the dissimilar degree between any two high dimensional datum, and initializing the high dimensional samples to two-dimensional plane. And then iteratively optimize the coordinate value of two-dimensional plane using genetic algorithm, which makes the Euclidean distance between the two-dimensional plane approximate to the fuzzy dissimilar degree between samples gradually. At last cluster the two-dimensional datum using FCM algorithm, so avoid dependence of clustering validity on the space distribution of high-dimensional samples. Experimental results show the method has exact clustering result, and improves the clustering speed greatly.

关 键 词:模糊聚类 分治法 遗传算法 模糊非相似矩阵 大数据集 高维 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象