检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:黄苑华 谢峰[1] 郝志峰[1,1,2] 蔡瑞初
机构地区:[1]广东工业大学应用数学学院,广州510520 [2]佛山科技技术学院数学与大数据学院,广东佛山528000 [3]广东工业大学计算机学院,广州510006
出 处:《计算机工程与应用》2017年第23期102-107,共6页Computer Engineering and Applications
基 金:国家自然科学基金(No.61472089);广东省自然科学基金(No.2014A030308008);软件新技术国家重点实验室开放课题(No.KFKT2014B23)
摘 要:聚类是数据挖掘中重要的技术之一,它是按照相似原则将数据进行分类。然而分类型数据的聚类是学习算法中重要而又棘手的问题。传统的k-modes算法采用简单的0-1匹配方法定义两个属性值之间的相异度,没有将整个数据集的分布考虑进来,导致差异性度量不够准确。针对这个问题,提出基于结构相似性的k-modes算法。该算法不仅考虑属性值它们本身的异同,而且考虑了它们在其他属性下所处的结构。从集群识别和准确率两个方面进行仿真实验,表明基于结构相似性的k-modes算法在伸缩性和准确率方面更有效。Clustering is one of the important technology in data mining, which is based on similar principles to classify data. However, categorical data clustering is an important and difficult issue among many learning algorithms. The traditional k-modes algorithm uses a simple 0-1 matching method to define dissimilarity between two attribute values, does not take the distribution of the entire data set into account, which results in inaccurate measurement differences. Aiming at this problem, a k-modes algorithm based on structure similarity is proposed. The algorithm not only considers the attribute values of their own similarities and differences, but also considers the structure of them in other attributes. The simulation results from two aspects of cluster identification and accuracy show that the k-modes algorithm based on structure similarity is more effective in scalability and accuracy.
关 键 词:聚类分析 分类型数据 相异度度量 结构相似性 k-modes算法
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.60