基于简单贝叶斯的中英文垃圾邮件过滤的比较分析  被引量:2

COMPARATIVE ANALYSIS OF ENGLISH AND CHINESE ANTI-SPAM FILTERING BASED ON NAVE BAYESIAN

在线阅读下载全文

作  者:张学农[1] 张立成[1] 

机构地区:[1]广东药学院网络中心,广东广州510006

出  处:《计算机应用与软件》2008年第8期178-180,228,共4页Computer Applications and Software

摘  要:对简单贝叶斯过滤方法作一些应用方面的研究工作。首先讨论了简单贝叶斯的垃圾邮件过滤,在PU1语料上实现了简单贝叶斯算法,通过不同的特征词选取方法,得到了比前人更好的结果,给出了特征数、阈值等参数和过滤效果间的关系,并得出了较优的参数设定。然后讨论了基于简单贝叶斯的中文邮件过滤,并在自己收集整理建立的中文邮件语料库上进行中文邮件过滤的实验,得出了不同于英文邮件的较优的参数设定。In this paper, we do some practical works on the application of Naive Bayesian method. First,we discuss the Naive Bayesian anti-spam filtering and realize the Naive Bayesian algorithm on PUI corpus. By different selection ways of characteristic words, we obtain a set of preferable parameters based on the elicited parameters of characteristic number, threshold value, as well as the relationship among filtering outcomes ,the experiment shows better results than those in previous issues. Second, we discuss the problem of Chinese anti-spare filtering with Naive Bayesian method. We collected many Chinese mails and created a Chinese mail corpus. Making Chinese mail filtering experiment on the Chinese mail corpus, we got a preferable parameter configuration differing from English mail.

关 键 词:垃圾邮件过滤 简单贝叶斯 比较分析 

分 类 号:TP311.56[自动化与计算机技术—计算机软件与理论] TP393.08[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象