检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国民航大学计算机科学与技术学院,天津300300
出 处:《计算机应用与软件》2015年第3期247-252,296,共7页Computer Applications and Software
基 金:国家自然科学基金项目(61103005);2013年度中国民航大学预研重大项目(3122013P003)
摘 要:对分类属性数据进行处理时,现有的聚类算法一般都通过距离函数将原始数据转换为表示两两距离的距离矩阵,然后再根据距离矩阵进行聚类,聚类结果很大程度上依赖于距离函数。针对上述问题,提出一种基于最大似然原理的分类属性数据分层聚类算法,称为HAC_ML算法。HAC_ML算法优点在于直接处理分类属性数据,不依赖于距离函数,并且克服了分层聚类不能回溯的缺点。在UCI数据集上的测试结果表明与经典的ROCK算法和K-Modes算法相比,HAC_ML算法是一种有效地处理分类属性数据的分层聚类算法。When processing categorical attribute data,existing clustering algorithms generally convert the raw data a distance matrix of every-two distance by a distance function first,and then carry out clustering according to the distance matrix. The clustering results largely depend on the distance function. In view of this,we propose a hierarchical clustering algorithm for categorical attribute data,which is based on maximum likelihood principle,and named HAC_ ML algorithm. The advantage of HAC_ ML algorithm is that it can directly deal with categorical attribute data but not depend on distance function,thus overcomes the shortcomings of hierarchical clustering which can 't backtrack. Test results on UCI datasets show that compared with classical ROCK algorithm and K-Modes algorithm,HAC_ML is an efficient hierarchical clustering algorithm in dealing with categorical attribute data.
分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229