基于字符语言模型的垃圾邮件过滤  被引量:8

Character-Based Language Modeling Approach for Spam Filtering

在线阅读下载全文

作  者:苏绥[1] 林鸿飞[1] 叶正[1] 

机构地区:[1]大连理工大学计算机科学与工程系,辽宁大连116024

出  处:《中文信息学报》2009年第2期41-47,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60373095;60673039);国家863高科技计划资助项目(2006AA01Z151)

摘  要:基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。该文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Na ve Bayes、SVM和基于词的语言模型方法的性能差异,以及不同n值、不同特征选择方式对过滤结果的影响。实验结果表明,基于字符的语言模型实现简单且具有很高的性能,能较好地满足大规模在线邮件系统的需要,具有很高的实用价值。Content-based spam filtering is one of the mainstream technologies used so far. After a briefly review of the state-of-the-art of spam filtering based on content, this paper proposes a character-based language modeling approach used in spare filtering task on the basis of these technologies. We experimentally compare the performance of this approach with Naive Bayes.SVM and Word-based language modeling approach. Our experimental results show that character-based language modeling approach can achieve high performance, and can be easily applied in on-line large-scale e-mail system.

关 键 词:计算机应用 中文信息处理 垃圾邮件过滤 语言模型 朴素贝叶斯 支撑向量机 n—Gram 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象