检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]湖南科技大学计算机科学与工程学院,湖南湘潭411201
出 处:《计算机工程》2015年第6期178-182,187,共6页Computer Engineering
基 金:国家自然科学基金资助项目(51175169);国家科技支撑计划基金资助项目(2012BAF02B01)
摘 要:针对传统层次聚类算法在处理大规模数据时效率低下的问题,提出一种快速层次聚类算法。根据数据点密度值的大小依次确定初始聚类中心,使用最小生成树算法对初始聚类中心间的相似度距离进行存储,寻找最优合并路径,从而减少更新距离矩阵的计算量和空间复杂度,并优化减法聚类中的收敛函数。在UCI数据集上的实验结果表明,该算法比传统聚类算法执行速度更快、效率更高,且随着数据量的增多,在时间消耗方面的优势更明显。Aiming at the problem that the traditional Hierarchical Clustering ( HC ) algorithm is facing enormous challenges in computation,this paper proposes an algorithm for fast clustering. The algorithm based on the size of the data point density values determines the initial cluster centers sequentially,and for the disadvantages of HC,merger needs to be updated every time in the distance matrix. It uses the minimum spanning tree algorithm to store the similarity distance between the initial cluster centers, finds the optimal merging path, reduces the amount of computation and space complexity to update the distance matrix,and optimizes the convergence function. Experimental results on UCI datasets show that the algorithm is faster,high efficiency than the traditional clustering algorithm. With the increasing of data,the advantage of this algorithm in terms of time consumption is the more obvious.
关 键 词:初始聚类中心 最优路径 快速聚类 大数据集 层次聚类
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.69