基于MapReduce的分类数据增量子空间聚类研究  

Research on incremental subspace clustering of categorical data based on MapReduce

在线阅读下载全文

作  者:庞宁[1] PANG Ning(Taiyuan University of Science and Technology,School of Applied Science,Taiyuan 030024,China)

机构地区:[1]太原科技大学应用科学学院,山西太原030024

出  处:《西南民族大学学报(自然科学版)》2025年第1期71-76,共6页Journal of Southwest Minzu University(Natural Science Edition)

基  金:山西省自然科学研究面上项目(20210302123224);太原科技大学博士启动课题(20202066)。

摘  要:基于细粒度属性子空间构建方法提出一种适用于分类数据的并行增量聚类算法SUC,该算法采用属性值-簇相似度度量方法,强化重要属性值对于类簇紧凑程度的正向影响力;在增量聚类阶段,更新属性权值,迭代形成增量类簇;采用MapReduce编程框架,实现算法SUC两阶段的并行化.在人工合成数据集、UCI数据集和真实数据集上,实验验证了算法的准确性、有效性和可扩展性.Based on the fine-grained attribute subspace construction method,a parallel incremental clustering algorithm SUC is proposed for categorical data.The algorithm adopts the attribute value-cluster similarity measurement method to strengthen the positive influence of important attribute values on the compactness of clusters.Based on the original clustering results,the attribute weights are updated and the incremental cluster is iteratively formed.Using the MapReduce programming framework,the two-stage parallelization of algorithm SUC is realized.The accuracy,effectiveness,and scalability of the algorithm were experimentally validated on artificially synthesized datasets,UCI datasets,and real datasets.

关 键 词:增量子空间聚类 细粒度属性权重 MapReduce聚类 分类数据 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象