检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:景永霞[1] 苟和平[1] 冯百明[2] 李勇[2]
机构地区:[1]琼台师范高等专科学校信息技术系,海口571100 [2]西北师范大学计算机科学与工程学院,兰州730070
出 处:《科学技术与工程》2013年第16期4720-4723,共4页Science Technology and Engineering
基 金:教育部科学技术研究重点项目(208148);海南省自然科学基金项目(612136);琼台师范高等专科学校项目(qtkz201115)资助
摘 要:针对KNN算法在分类时的样本相似度计算开销大,在处理不均衡数据集时少数类分类误差大的问题,提出一种在不均衡数据集下基于密度的训练样本裁剪算法。对训练样本的各个样本类进行聚类,删除噪声数据并计算每个样本类的平均相似度和样本平均密度,以此获得样本类裁剪的相似度阈值,然后将样本类内相似度小于类相似度阈值的样本进行合并,减少训练样本总数。实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,有效地减少分类计算开销,并能在一定程度上提高少数类的分类性能。KNN classifier has the high computational overhead of similarity computing, and it has poor per- formance in the minority class prediction when it used to deal with the imbalanced data sets, an algorithm for reduc- ing training data on imbalanced data sets is presented, which gathers the class into several clusters by clustering, deletes the noise data, compute the average similarity and the average density of each class. Then the samples of the class with the similarity smaller than the threshold are combined to reduce the number of training samples. The experiments show that the method can reduce the computational overhead significantly, improve the classification performance of the minority class, and the classification stability of the KNN algorithm is maintained.
分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.13