基于密度的KNN分类器样本裁剪算法被引量：2

A Density-based Method for Reducing Training Data in KNN

机构地区：[1]琼台师范高等专科学校信息技术系,海南海口571100 [2]西北师范大学计算机科学与工程学院,甘肃兰州730070

出　　处：《佳木斯大学学报（自然科学版）》2013年第2期242-244,248,共4页Journal of Jiamusi University：Natural Science Edition

基　　金：教育部科学技术研究重点项目(208148);海南省自然科学基金项目(612136);琼台师范高等专科学校项目(qtkz201115)

摘　　要：KNN算法在分类准确率和召回率方面具有较好的性能,但由于样本相似度计算开销大,导致分类效率低.针对此问题,本文提出一种基于密度的训练样本裁剪算法,对训练样本的各个样本类进行聚类,根据密度不同聚集成不同的簇,删除噪声数据并计算每个样本类的相似度阈值,然后将样本类内大于类相似度阈值的样本进行合并,以减少训练样本总数.实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,实现各个样本类内高相似度样本的合并,减少分类计算开销.KNN algorithm is efficient text categorization algorithm in recall and accuracy, but the computational overhead of similarity computing is huge, so the classification efficiency is lower. In this paper, a density -based method for reducing training data is presented. The method classified the samples into different clusters according to the densities, removed the noise data and calculated the similarity threshold. Some higher similar sample documents in each class were combined into one document. The experiments showed that the method can reduce the computational overhead effectively and maintain the classification stability of the KNN algorithm.

关键词：KNN分类聚类样本裁剪相似度阈值

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于密度的KNN分类器样本裁剪算法被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于密度的KNN分类器样本裁剪算法 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于密度的KNN分类器样本裁剪算法被引量：2