检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]国防科技大学计算机学院
出 处:《中文信息学报》2008年第1期67-73,共7页Journal of Chinese Information Processing
基 金:国家自然科学基金资助项目(60403050);新世纪优秀人才支持计划资助项目(NCET-06-0926)
摘 要:垃圾邮件过滤就是在线对邮件做出Spam(垃圾)或Ham(非垃圾)的判断,这是一种根据客户反馈不断自学习的过程。本文抽取邮件的语言特征和行为特征构建多个简单过滤器,然后采用集成学习方法组合这些简单过滤器,获得了比简单过滤器更高的性能。实验表明单一特征学习的计算复杂性低、速度较快,而集成学习的效果更好。本文提出的将SVM集成学习用于邮件过滤的方法,在各种集成学习方法中效果最好。Spam filtering is defined as a task trying to label Emails with Spam or Ham in an online situation, which is essentially a self learning procedure with user's feedback. There are already some simple filters applying the linguistic features or behavior features. In this paper, we use the ensemble learning method to combine multi filter and achieve a higher performance than the single one could. The experiment result shows the single feature learning is fast and the ensemble learning has better effects, in which the proposed SVM ensemble method has the highest performance.
关 键 词:计算机应用 中文信息处理 垃圾邮件过滤 机器学习 集成学习 支持向量机
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249