一种基于改进贝叶斯算法的Web文本分类方法  被引量:1

A Modified Complement Naive Bayes for Chinese Web Page Classification

在线阅读下载全文

作  者:徐小伟[1] 成亚谊[1] 

机构地区:[1]四川大学计算机学院

出  处:《现代计算机(中旬刊)》2012年第4期3-7,共5页Modern Computer

基  金:国家863高科技项目(No.2008AA01Z119)

摘  要:针对基于互补贝叶斯的分类算法在数据倾斜分布时由于过学习现象导致分类准确度不理想的状况,提出一种改进的互补贝叶斯分类算法。通过实验分析数据的倾斜分布对改进后的互补贝叶斯算法的影响,经验证该算法能够在数据倾斜分布时依然能保持较高的分类准确度,并且能随数据倾斜分布表现出较好的鲁棒性。讨论普通文本与Web文本的不同,建立一种带有主题权重的文档向量模型,并分析主题权重对文本算法的影响。实验发现,使用带有主题权重的文档向量模型,能够使得分类准确率相比普通的文本分类提高5%。Focusing on the poor performance of complement naive Bayes algorithm on skewed data set,presents a modified complement naive Bayes algorithm by using a superior estimation for the prior class probability.Comprehensive experiments show that the modified complement naive Bayes algorithm exhibits excellent robustness to skewed data and achieves higher precision than any other naive Bayes algorithm.Furthermore,regards the difference between Web page classification and text classification,and presents a title weighted vector space model and analyses the effect of title weighted factor on classifier's precision.Experimental result shows that the precision is improved by 5% on average by using title weighted vector space model.

关 键 词:朴素贝叶斯 互补贝叶斯 WEB文本分类 倾斜数据分布 

分 类 号:TP393.08[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象