面向非平衡混合数据的改进计数最近邻分类算法  被引量:2

Improved CwkNN classification algorithm for un-balanced data

在线阅读下载全文

作  者:廖志芳[1] 陈宇宙[1] 樊晓平[1] 瞿志华[1,2] 

机构地区:[1]中南大学信息科学与工程学院,长沙410075 [2]美国中佛罗里达大学电子与计算机工程系,奥兰多FL 32816

出  处:《计算机工程与应用》2008年第12期139-141,共3页Computer Engineering and Applications

基  金:国家自然科学基金(the National Natural Science Foundation of China under Grant No.69975003);湖南省自然科学基金(the Natural Science Foundation of Hunan Province of China under Grant No.06JJ50143)

摘  要:非平衡混合数据是指数据集中类别不同的样本在数量上存在着较大的差别;同时样本数据集中的数据是非单一的数据类型,即它包含多种类型,如数值型和文本型数据。在对混合型数据的分类算法中,计数最近邻分类算法(CwkNN)可以有效地对混合型数据进行分类,但该算法对数据的非平衡性处理效果不是太理想。在CwkNN的基础之上结合数据的非平衡性特点提出了基于全局密度和K-密度的分类算法来提高少数类样本的权重,从而提高数据的分类精确度。实验结果表明,全局密度分类算法和CwkNN算法的分类精度相当,K-局部密度分类算法在一定程度上提高了分类的精度。The un-balanced data means that the numbers of samples in different class are not the same in the datasets,or even differ largely.And the sample sets contain different data types,such as ordinal and nominal data,these elements should be taken into consideration when processing the datasets.Though CwkNN can deal with the mixture data properly,the algorithm can not process the un-balanced data properly.So this paper proposes the Overall Density and the K-Local Density to increase the weight of minor samples,and then we hope that they can improve the classification accuracy.Experiments show that the classifying accuracy of the Overall Density is almost the same as the CwkNN,and the K-Local Density classification algorithm can increase the accuracy to some extent.

关 键 词:计数最近邻分类算法 非平衡数据 全局密度 K-密度 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象