基于内容的垃圾邮件过滤技术综述  被引量:129

A Survey of Content-based Anti-spam Email Filtering

在线阅读下载全文

作  者:王斌[1] 潘文锋[1] 

机构地区:[1]中国科学院计算技术研究所,北京100080

出  处:《中文信息学报》2005年第5期1-10,共10页Journal of Chinese Information Processing

基  金:国家973项目资助(2004CB318109)

摘  要:垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set、Rocchio、Boosting、Bayes、kNN、SVM、Winnow等等。实验结果表明,Boosting、Flexible Bayes、SVM、Winnow方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做。The volume of junk emails on the Intemet has grown tremendously in the past few years and is causing serious problems. Content-based filtering is one of the mainstream technologies used so far. This paper aims to provide an overview on the state of art in this research field, including benchmark corpora, evaluation methods and filtering approaches. Many filtering approaches, including Ripper, Decision Trees, Rough Sets, Rocchio, Boosting, Bayes, kNN, SVM and Winnow, are discussed and compared in this paper. The experimental results show that some approaches, such as Boosting, Flexible Bayes, SVM, Winnow, can achieve very good results on research corpora. However, much more work should be done for practical use.

关 键 词:计算机应用 中文信息处理 综述 垃圾邮件 反垃圾邮件 信息过滤 文本分类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象