一种新型朴素贝叶斯文本分类算法  被引量:52

New Naive Bayes Text Classification Algorithm

在线阅读下载全文

作  者:邸鹏[1] 段利国[1] 

机构地区:[1]太原理工大学计算机科学与技术学院,太原030024

出  处:《数据采集与处理》2014年第1期71-75,共5页Journal of Data Acquisition and Processing

基  金:国家重点实验室开放课题(SKLSE2012-09-30)资助项目;山西省自然科学基金(2013-011015-2)资助项目;太原理工大学"语言信息处理学科建设和研究"专项项目资助

摘  要:针对在文本分类中先验概率的计算比较费时而且对分类效果影响不大、后验概率的精度损失影响分类准确率的现象,对经典朴素贝叶斯分类算法进行了改进,提出了一种"先抑后扬"(抑制先验概率的作用,扩大后验概率的影响)的文本分类算法。算法中去掉了对先验概率的计算,并在后验概率的计算中引入了一个放大系数。实验结果表明,分类时不计算先验概率对分类精度影响甚微但可以明显加快分类的速度,在后验概率的计算中引入放大系数减少了误差传播的影响,提高了分类精度。According to the phenomena that the calculation of prior probability in text classifica- tion is time-consuming and has little effect on the classification result,and the accuracy loss of posterior probability affects the accuracy of classification, the classical naive Bayes algorithm is improved and a new text classification algorithm is proposed which restrains the effect of prior probability and amplifies the effect of posterior probability. In the new algorithm, the calcula- tion of prior probability is removed and an amplification factor is added to the calculation of posterior probability. The experiments prove that removing the calculation of prior probability in text classification can accelerate the classification speed and has little effect on the classifica- tion accuracy, and adding an amplification factor in the calculation of posterior probability can reduce the effect of error propagation and improve the classification accuracy.

关 键 词:文本分类 朴素贝叶斯 先验概率 后验概率 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象