一种基于抽样的大规模混合数据聚类集成算法  被引量:3

Clustering Ensemble Algorithm for Large-scale Mixed Data Based on Sampling

在线阅读下载全文

作  者:庞天杰[1] 梁吉业[1,2] 

机构地区:[1]太原师范学院计算机系,太原030619 [2]山西大学计算智能与中文信息处理教育部重点实验室,太原030006

出  处:《计算机科学》2016年第9期209-212,共4页Computer Science

基  金:国家自然科学基金项目:"用户行为数据"稀疏表示的理论与方法研究(61273294);山西省回国留学人员科研资助项目:基于多粒度与变粒度的群决策方法研究(2013-101)资助

摘  要:混合数据聚类是聚类分析中一个重要的问题。现有的混合数据聚类算法主要是在全体样本的相似性度量的基础上进行聚类,因此对大规模数据进行聚类时,算法效率不高。基于此,设计了一种新的抽样策略,在此基础上,提出了一种基于抽样的大规模混合数据聚类集成算法。该算法对利用新的抽样策略得到的多个样本子集分别进行聚类,并将结果集成得到最终聚类结果。实验证明,与改进的K-prototypes算法相比,该算法的效率有了显著提高,同时聚类有效性指标基本相同。In clustering analysis,one of the important problems is mixed data clustering. The clustering of existing algo- rithms is mainly based on similarity measurement of all samples. Therefore, the efficiency of clustering for large-scale data is not high. So we designed a new sampling strategy and proposed an ensemble algorithm for large-scale mixed data based on sampling. This new algorithm clusters subsets which are obtained by the use of the new sampling strategy re- spectively and the final clustering results can be gotten by clustering ensemble. Experiment shows that the efficiency of algorithm is improved significantly and the clustering validity indexes are almost the same compared with the modified K-prototypes algorithm.

关 键 词:聚类 大规模混合数据 聚类集成 抽样 有效性指标 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象