基于最小风险贝叶斯的垃圾博客识别算法研究  被引量:1

Research of Identifying Splog Based on the Minimum Risk Bayesian

在线阅读下载全文

作  者:何苑[1] 郝梦岩[1] 谭红叶[2] 

机构地区:[1]长治学院计算机系,山西长治046011 [2]山西大学计算机与信息技术学院,山西太原030006

出  处:《山西大学学报(自然科学版)》2014年第1期42-47,共6页Journal of Shanxi University(Natural Science Edition)

基  金:国家自然科学基金(61100138);山西省自然科学基金(2011011016-2);山西省自然科学基金(2011011014-2);山西省高校科技开发项目(20121117);山西省科技基础条件平台建设项目(2012091003-0105)

摘  要:针对当前垃圾博客识别研究中,正常博客误识别为垃圾博客损失高的问题,提出了一种基于最小风险贝叶斯的垃圾博客识别算法。该算法提取多结构特征,在朴素贝叶斯分类方法中引入风险因子,通过最小化风险进行垃圾博客和正常博客的分类。实验结果表明:该算法能在对召回率影响很小的情况下,进一步降低误判率,提高识别准确率。与朴素贝叶斯方法相比,准确率提高近5个百分点,与支持向量机方法性能接近。To settle the problem of high expense of miselassifing normal blogs as splogs,the algorithm oi i- dentifying splogs based on the minimum risk Bayesian is introduced. The algorithm extracts multiple struc- ture features and introduces the risk factor in the model of naive Bayesian, classifying normal blogs and splogs by minimizing the risks. The experimental results show that the method can improve the precision with small impact of the recall,and further reduce the misjudgment rate. The precision is 5% higher than that of the naive Bayesian and almost same as that of the support vector model.

关 键 词:中文信息处理 垃圾博客 贝叶斯 最小风险 多结构特征 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象