基于改进K近邻的垃圾邮件过滤技术  被引量:8

Spam filtering method based on improved KNN

在线阅读下载全文

作  者:田泽[1] 颜松远[1] 徐敬东[1] 

机构地区:[1]南开大学信息技术科学学院,天津300071

出  处:《计算机工程与应用》2007年第25期178-181,220,共5页Computer Engineering and Applications

基  金:天津市信息化项目(No.042023012)。

摘  要:提出了一种基于K近邻(KNN)原理的快速文本分类算法。该算法不仅具有原始K近邻算法分类效果好的优点,还通过对训练样本进行压缩,消除相似度之间的比较,提高了分类效率。实验表明,该算法用于邮件过滤系统时,分类效果要优于基于朴素贝叶斯分类器的二项独立模型和多项式模型,而分类的时间复杂度与其相当,完全可以应用于实时邮件过滤。This paper presents a fast text classification algorithm based on KNN(K Nearest Neighbor).h increases the classification efficiency by compressing training samples and eliminating comparisons between similarities,while maintaining high classification performance of the original KNN algorithm.The experiment shows that in E-mail filter system,the new algorithm has a better classification performance than Binary Bernoulli Model or Muhinomial Model,both of which are based on Naive Bayes classifier. And its computational complexity of classification is equal to these two algorithms,so it can be applied to real-time E-mail filtering.

关 键 词:快速KNN算法 文本分类 邮件过滤 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象