基于K近邻的模糊密度峰值聚类算法研究  被引量:1

Fuzzy Density Peaks Clustering Algorithm Based on K-nearest Neighbors

在线阅读下载全文

作  者:支元[1] 李忠[1] ZHI Yuan LI Zhong(Jiangsu Union Technical Institute Changzhou Liu Guojun Branch, Changzhou 213000, China)

机构地区:[1]江苏联合职业技术学院常州刘国钧分院,江苏常州213000

出  处:《软件》2017年第4期85-90,共6页Software

基  金:2016年度江苏省教育科学"十三五"重点资助规划课题(项目编号:B-a/2016/03/06)

摘  要:基于密度的聚类算法(Density Peak Clustering,DPC)广泛使用在处理非球形数据集的聚类问题,算法使用较少的参数就能够实现数据集的处理。但该算法存在这样一些的不足:首先,全局变量的设定没有考虑数据的局部结构,特别是当不同类别的局部密度差别很大的情况下,容易忽略一些密度较小的类别,聚类效果不理想。其次,DPC提出了一种通过决策图来人工选取聚类中心点的方法,这也是DPC算法在人工智能数据分析的一个重大缺陷。为此,本文提出了基于K近邻的模糊密度峰值聚类算法,算法针对这两方面的不足进行了改进。最后本文使用人工数据集和UCI数据集进行了实验,实验结果表明本文所提出的算法,在不通过人工选取聚类中心的情况下,能够正确地找出类别个数,并且保持着较高的聚类精确度,验证了算法的有效性。A novel clustering algorithm based on density (DPC) has been proposed recently, this algorithm can deal with non-spherical cluster and does not require too many parameters. But the algorithm has some defects. First the local structure of data has not been taken into account when it calculates the local density. It does not perform well when clusters have different densities. Secondly, this algorithm utilizes decision graph to manually select cluster centers. Manual selection of cluster centers is a big limitation of DPC in intelligent data analysis. In this paper, we propose an improved method. It has been improved for the deficiencies in these two aspects. We use synthetic data set and UCI data set to make the experiments. Experimental results show that our algorithms can correctly identify the number of categories without manually selecting cluster center and maintain a high clustering accuracy, which verifies that the proposed algorithm are effective and feasible.

关 键 词:数据挖掘 聚类算法 密度峰值 K近邻 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象