改进的分类数据聚类中心初始化方法  被引量:5

Improved cluster center initialization method for clustering categorical data

在线阅读下载全文

作  者:王思杰 唐雁[1] WANG Sijie;TANG Yan(College of Computer & Information Science,Southwest University,Chongqing 400700,China)

机构地区:[1]西南大学计算机与信息科学学院,重庆400700

出  处:《计算机应用》2018年第A01期73-76,共4页journal of Computer Applications

基  金:中央高校基本科研业务费专项资金资助项目(XDJK2015C110)

摘  要:模糊K-modes算法是一种有效的针对分类数据的聚类方法,但算法性能非常依赖于初始中心的选择。针对模糊聚类算法对初始中心敏感这一问题,提出一种改进的基于距离和离群点检测的初始中心选择的方法。首先,通过增大初始中心选择过程中距离所占的比重,使所选择的初始中心点更具有分布性;然后,运用基于距离的离群点检测技术对初始中心点进行进一步筛选,避免离群点成为初始中心。对比实验结果表明,改进方法提高了分类数据初始中心选择的成功率,并具有较高的准确率。The fuzzy K-modes algorithm is one of the efficient clustering methods for categorical data. However, the performance of the fuzzy K-modes clustering algorithm strongly depends on initial cluster centers. In order to solve the problem, a modified initialization method for categorical data based on density and distance was proposed. Firstly, by increasing the proportion of the distance in initial center selection process, the selected initial centers were more distributed. Then the distance-based outlier detection technique was used to screen the initial centers from the outliers. The experimental results show that the method is effective, the accuracy of the clustering results and the success rate of the algorithm are improved.

关 键 词:模糊K—modes算法 距离 密度 初始聚类中心 离群点检测 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象