检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]浙江工业大学计算机科学与技术系,杭州310023
出 处:《计算机科学》2013年第5期224-228,共5页Computer Science
基 金:国家水体污染控制与治理科技重大专项(2009ZX07318-003-01-02);水利部公益性行业科研专项(201001031)资助
摘 要:相异度和相似度度量是聚类算法中非常重要的一种因素,往往会影响到聚类分析的结果。很多聚类算法采用欧式距离作为计算数据相似度的度量。而欧式距离不能反映属性值的全局特性,且不顾及各属性之间的量纲差异,因此当不同属性间具有明显量纲或值域差异时,不能取得很好的效果。对此,提出了一种广义加权Minkowski距离,即由各属性的量纲和值域信息来确定各属性的广义权值,既考虑了整个数据集的特性,又消除了各属性之间的不和谐,同时分位数的引进在一定程度上减弱了噪声属性值对距离度量的影响。将提出的新的距离度量用于经典的k-means算法和量子遗传聚类算法,实验结果表明,采用新的距离度量和引进量子遗传算法的聚类是更加有效的。Difference and similarity are very important factor in clustering algorithms, and always affect the results of clustering analysis. A lot of clustering algorithms use Euclidean distance as it' s similarity measure. Euclidean distance can't reflect the global information of attributes, and don't consider the unit differences between each attribute, so it can' t make a good result when there is obvious unit and domain differences. So, this paper put forward a generally weighted Minkowski distance which is determined by the unit and domain information of each attributes value. Not only charac- teristics of whole data are considered, but also dicord between attributes is removed, at the same time, using of fractional bits weakens the noise data influence. We used new distance measure in classic k-means. And quantum genetic k-means and the experimental result show that the new algorithm is effective.
关 键 词:数据聚类 Minkowski距离 分位数 全局信息 量子遗传算法
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.40