检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]太原理工大学计算机科学与技术学院,太原030024
出 处:《数据采集与处理》2014年第1期71-75,共5页Journal of Data Acquisition and Processing
基 金:国家重点实验室开放课题(SKLSE2012-09-30)资助项目;山西省自然科学基金(2013-011015-2)资助项目;太原理工大学"语言信息处理学科建设和研究"专项项目资助
摘 要:针对在文本分类中先验概率的计算比较费时而且对分类效果影响不大、后验概率的精度损失影响分类准确率的现象,对经典朴素贝叶斯分类算法进行了改进,提出了一种"先抑后扬"(抑制先验概率的作用,扩大后验概率的影响)的文本分类算法。算法中去掉了对先验概率的计算,并在后验概率的计算中引入了一个放大系数。实验结果表明,分类时不计算先验概率对分类精度影响甚微但可以明显加快分类的速度,在后验概率的计算中引入放大系数减少了误差传播的影响,提高了分类精度。According to the phenomena that the calculation of prior probability in text classifica- tion is time-consuming and has little effect on the classification result,and the accuracy loss of posterior probability affects the accuracy of classification, the classical naive Bayes algorithm is improved and a new text classification algorithm is proposed which restrains the effect of prior probability and amplifies the effect of posterior probability. In the new algorithm, the calcula- tion of prior probability is removed and an amplification factor is added to the calculation of posterior probability. The experiments prove that removing the calculation of prior probability in text classification can accelerate the classification speed and has little effect on the classifica- tion accuracy, and adding an amplification factor in the calculation of posterior probability can reduce the effect of error propagation and improve the classification accuracy.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.148.194.168