一种基于成词概率的贝叶斯垃圾邮件过滤方法  

A Bayesian Spam Filtering Method Based on Words Probability

在线阅读下载全文

作  者:林伟[1] 

机构地区:[1]四川警察学院计算机系,四川泸州646000

出  处:《计算机技术与发展》2011年第9期242-244,249,共4页Computer Technology and Development

基  金:四川省青年软件创新工程基金(2007AA42)

摘  要:贝叶斯分类方法在英文邮件过滤中效果良好,在中文环境下一直表现不佳,而特征选择是垃圾邮件过滤中的重要步骤,它能够有效地改善过滤效果。文中以成词概率作为特征选择的基础,用构造的方法形成候选特征集,然后进一步用信息增益的方法来度量特征与类的关系,选择信息增益较大的N个特征做为最后的特征向量空间。在此基础上利用贝叶斯方法对邮件进行分类,实验结果验证了该方法在分类时间和分类效果上都优于传统的基于机械分词的贝叶斯方法。Bayesian classification method has expressed high accuracy in English mails filtration,but the performance was not good under Chinese environment.It has taken the words probability as the foundation of the feature selection,the candidate feature sets were formed through the construction method,then use information gain to evaluate the relationship between feature and class,choose the n-larger information gain features as the final feature vector space.Based on this,the mails were classified by Bayesian method.Experimental verification shows this method surpassed the tradition method which based on the mechanical participle of the Bayesian theorem in the classified time and the classified effect.

关 键 词:垃圾邮件 成词概率 贝叶斯方法 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象