Weka平台上距离指数自动寻优的模糊C-均值聚类算法  被引量:1

Fuzzy C-means Clustering Algorithm of Distance Index Automatic Optimization on Weka Platform

在线阅读下载全文

作  者:刘彩霞[1] 方建军[1] 刘艳霞[1] 陈旭[1] 

机构地区:[1]北京联合大学自动化学院,北京100101

出  处:《北京联合大学学报》2016年第4期53-57,共5页Journal of Beijing Union University

基  金:北京市教委人才强教深化计划长城学者培育计划项目(CIT&TCD20150314);北京市自然科学基金项目(4142018)

摘  要:针对距离计算对模糊C-均值聚类(Fuzzy C-Means,FCM)中心比较敏感的问题,文中提出了一种改进的模糊C-均值聚类算法(Minkowski Fuzzy C-Means,MFCM)。MFCM算法采用距离指数可自动寻优的闵可夫斯基距离代替欧氏距离来计算样本集的相似度,以提高数据集的聚类准确率,减小平方误差总和。实验结果表明,Glass数据集、Balance-scale数据集和Vehicle数据集的聚类准确率分别由原来的42.52%、55.84%和45.86%提升到51.87%、62.56%和45.98%。此外,文章在开源数据挖掘Weka平台上实现了FCM和MFCM算法,弥补了Weka平台上集成少量聚类算法的不足。The Fuzzy C-Means clustering center is sensitive for distance calculation, and the paper proposes an improved Fuzzy C-Means clustering algorithm (Minkowski Fuzzy C-Means, MFCM). MFCM algorithm uses Minkowski distance whose distance index is automatic optimization, replacing Euclidean distance to calculate the similarity of sample set in order to improve the accuracy of the clustering data and reduce the squared errors sum. The experimental results show that clustering accuracy of Glass data, Balance-scale data and Vehicle data separately raise to 51.87% , 62.56% and 45.98% from 42.52%, 55.84% and 45.86%. In addition, the paper achieves FCM and MFCM algorithm on the open source data mining Weka platform, making up the shortage of a small amount of integrated clustering algorithm on the Weka platform.

关 键 词:距离指数 聚类准确率 平方误差总和 数据挖掘平台 

分 类 号:TP274[自动化与计算机技术—检测技术与自动化装置]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象