基于多过滤器集成学习的在线垃圾邮件过滤  被引量:4

Online Spam Filtering Based on Ensemble Learning of Multi-filter

在线阅读下载全文

作  者:刘伍颖[1] 王挺[1] 

机构地区:[1]国防科技大学计算机学院

出  处:《中文信息学报》2008年第1期67-73,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60403050);新世纪优秀人才支持计划资助项目(NCET-06-0926)

摘  要:垃圾邮件过滤就是在线对邮件做出Spam(垃圾)或Ham(非垃圾)的判断,这是一种根据客户反馈不断自学习的过程。本文抽取邮件的语言特征和行为特征构建多个简单过滤器,然后采用集成学习方法组合这些简单过滤器,获得了比简单过滤器更高的性能。实验表明单一特征学习的计算复杂性低、速度较快,而集成学习的效果更好。本文提出的将SVM集成学习用于邮件过滤的方法,在各种集成学习方法中效果最好。Spam filtering is defined as a task trying to label Emails with Spam or Ham in an online situation, which is essentially a self learning procedure with user's feedback. There are already some simple filters applying the linguistic features or behavior features. In this paper, we use the ensemble learning method to combine multi filter and achieve a higher performance than the single one could. The experiment result shows the single feature learning is fast and the ensemble learning has better effects, in which the proposed SVM ensemble method has the highest performance.

关 键 词:计算机应用 中文信息处理 垃圾邮件过滤 机器学习 集成学习 支持向量机 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象