检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:廖志芳[1] 陈宇宙[1] 樊晓平[1] 瞿志华[1,2]
机构地区:[1]中南大学信息科学与工程学院,长沙410075 [2]美国中佛罗里达大学电子与计算机工程系,奥兰多FL 32816
出 处:《计算机工程与应用》2008年第12期139-141,共3页Computer Engineering and Applications
基 金:国家自然科学基金(the National Natural Science Foundation of China under Grant No.69975003);湖南省自然科学基金(the Natural Science Foundation of Hunan Province of China under Grant No.06JJ50143)
摘 要:非平衡混合数据是指数据集中类别不同的样本在数量上存在着较大的差别;同时样本数据集中的数据是非单一的数据类型,即它包含多种类型,如数值型和文本型数据。在对混合型数据的分类算法中,计数最近邻分类算法(CwkNN)可以有效地对混合型数据进行分类,但该算法对数据的非平衡性处理效果不是太理想。在CwkNN的基础之上结合数据的非平衡性特点提出了基于全局密度和K-密度的分类算法来提高少数类样本的权重,从而提高数据的分类精确度。实验结果表明,全局密度分类算法和CwkNN算法的分类精度相当,K-局部密度分类算法在一定程度上提高了分类的精度。The un-balanced data means that the numbers of samples in different class are not the same in the datasets,or even differ largely.And the sample sets contain different data types,such as ordinal and nominal data,these elements should be taken into consideration when processing the datasets.Though CwkNN can deal with the mixture data properly,the algorithm can not process the un-balanced data properly.So this paper proposes the Overall Density and the K-Local Density to increase the weight of minor samples,and then we hope that they can improve the classification accuracy.Experiments show that the classifying accuracy of the Overall Density is almost the same as the CwkNN,and the K-Local Density classification algorithm can increase the accuracy to some extent.
关 键 词:计数最近邻分类算法 非平衡数据 全局密度 K-密度
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.42