垃圾邮件过滤中信息增益的改进研究  被引量:8

Improvement of Information Gain in Spam Filtering

在线阅读下载全文

作  者:翟军昌[1] 秦玉平[1] 车伟伟[2] 

机构地区:[1]渤海大学,锦州121000 [2]沈阳大学,沈阳110044

出  处:《计算机科学》2014年第6期214-216,224,共4页Computer Science

基  金:国家自然科学基金(61104106)资助

摘  要:针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法。首先利用特征词的先验概率定义增益比,然后利用增益比对特征词为整个分类所提供的信息量进行放大或弱化,从而对特征词的类别条件熵计算作了改进,采用极大后验假设朴素贝叶斯决策方法在英文语料库上进行实验,通过召回率、正确率、精确率和错误率对算法进行评价分析。实验结果表明,改进后的算法提高了过滤器的分类精度,降低了过滤器对合法邮件的误判给用户带来的损失。The paper put forward a kind of improved information gain for the feature words selection in spam filtering.Firstly,defined gain ratio according to the probability of feature words,and then amplifed or weakened the amount of information of the feature words for classification,thereby improving the calculation method of category conditional entropy.Finally,combining with the naive Bayes decision method of maximum a posteriori hypothesis,carried out an experiment on the English Corpus to analyze the algorithm through recall,correct,accuracy and error.The experimental results show that the improved algorithm can enhance classification precision and reduce user loss.

关 键 词:信息增益 特征选择 垃圾邮件 朴素贝叶斯 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象