词间相关性在贝叶斯文本分类中的应用研究  被引量:4

Research on application of word correlation in Naive Bayes text classification

在线阅读下载全文

作  者:章舜仲[1,2] 王树梅[1] 黄河燕[3] 陈肇雄[3] 

机构地区:[1]南京理工大学计算机科学系,南京210094 [2]南京财经大学电子商务系,南京210046 [3]中国科学院计算机语言信息工程研究中心,北京100083

出  处:《计算机工程与应用》2009年第16期159-161,共3页Computer Engineering and Applications

摘  要:针对朴素贝叶斯分类的属性独立性假设的不足,讨论了相关性及多变量相关的概念,给出词间相关度的定义。在TAN分类器的词间相关性分析基础上,提出一种文档特征词相关度估计公式及其在改进朴素贝叶斯分类模型中应用的算法,在Reuters-21578文本数据集上的实验表明,改进算法简单易行,能有效改进贝叶斯分类性能。Aiming at the deficiency of Naive Bayes' attribute independence assumption,the concept of correlation and that between multi-variations were discussed,and the definition of correlation degree between terms was presented.Based on the analysis of the correlation between terms of TAN classifier,authors proposed a fomula to evaluate the correlation degree between document feature words and the algorithm of its application to ameliorating Naive Bayesian classifier.The experiments on Reuters- 21578 collection show the improvement of algorithm to be simple,effective and easy to implement.

关 键 词:文本分类 朴素贝叶斯 事件相关 相关度 树扩展型朴素贝叶斯分类器 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象