多特征结合的中文垃圾邮件过滤特征选择方法研究  

The Research of the Chinese Spam Filtering Feature Selection Method by Multi-feature Combination

在线阅读下载全文

作  者:赵俊生[1] 苏依拉[1] 

机构地区:[1]内蒙古工业大学信息工程学院,内蒙古呼和浩特010080

出  处:《内蒙古工业大学学报(自然科学版)》2013年第3期209-213,共5页Journal of Inner Mongolia University of Technology:Natural Science Edition

基  金:内蒙古工业大学基金项目(X200801)

摘  要:在中文垃圾邮件过滤系统中,基于内容过滤的Nave Bayes算法得到了广泛应用。本文将多种特征结合构建邮件文本向量,应用八种文本分类特征选择方法在Nave Bayes算法上进行实验验证,通过准确率和召回率结合的综合性能指标F1值进行性能评价,结果表明,采用类别区分词、优势率、信息增益、期望交叉熵、CHI统计和文本证据权等六种特征选择方法应用于多特征结合邮件文本向量的过滤取得了较好的垃圾邮件过滤性能,反垃圾邮件效果较好。In Chinese spam filtering system , Naive Bayes algorithm based on content filtering has been widely used .The combination of characteristics to build the e -mail text vector by eight text classification feature selection method is applied to Naive Bayes algorithm for experimental verification .The performance evaluation results show that six feature selection methods , category distinguish words , odds ratio, information gain, expected cross entropy , CHI statistical and textual evidence weight , is made good spam filtering performance to the multi -feature combined with the text vector filtering by the comprehensive performance indicator F1 value of precision and recall rate , and anti-spam effect is good .

关 键 词:邮件向量 垃圾邮件过滤 特征选择 NAIVE BAYES算法 F1  

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象