基于支持向量机的垃圾邮件过滤方法  被引量:7

Spam Filter Approach Based on Support Vector Machine

在线阅读下载全文

作  者:王祖辉[1] 姜维[1] 

机构地区:[1]哈尔滨工业大学信息管理与信息系统研究所

出  处:《计算机工程》2009年第13期188-189,207,共3页Computer Engineering

基  金:国家自然科学基金资助项目(70801022)

摘  要:针对中英文混合垃圾邮件过滤问题,提出一种基于支持向量机(SVM)的过滤方法和融合多种分类特征的框架。通过改进SVM中线性核的表示方式,解决存储空间和计算量问题。通过领域术语自动抽取技术,增强垃圾邮件过滤的语义单元识别能力,提高垃圾邮件分类性能。在跨语言大规模语料库上的实验表明,采用SVM比采用Good-Turing算法平滑的朴素贝叶斯模型泛化性能提高了6.13%,分类精度比最大熵模型提高了8.18%。This paper presents a spam filter approach based on Support Vector Machine(SVM) to deal with cross language E-mail including Chinese and English, which provides the ability of integrating more statistical information. It optimizes the representation of linear kernel to improve time complexity and storage complexity, and adopts domain term extraction to improve the ability of semantic unit recognition and the performance of spam filter. Experiments on large-scale cross language corpora show that SVM-based approach increases the precision by 6.13% compared to Naive Bayes which is smoothed by Good-Turing, and increases classification accuracy by 8.18% compared to maximum entropy model.

关 键 词:垃圾邮件过滤 支持向量机 领域术语抽取 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象