检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:章舜仲[1,2] 王树梅[1] 黄河燕[3] 陈肇雄[3]
机构地区:[1]南京理工大学计算机科学系,南京210094 [2]南京财经大学电子商务系,南京210046 [3]中国科学院计算机语言信息工程研究中心,北京100083
出 处:《计算机工程与应用》2009年第16期159-161,共3页Computer Engineering and Applications
摘 要:针对朴素贝叶斯分类的属性独立性假设的不足,讨论了相关性及多变量相关的概念,给出词间相关度的定义。在TAN分类器的词间相关性分析基础上,提出一种文档特征词相关度估计公式及其在改进朴素贝叶斯分类模型中应用的算法,在Reuters-21578文本数据集上的实验表明,改进算法简单易行,能有效改进贝叶斯分类性能。Aiming at the deficiency of Naive Bayes' attribute independence assumption,the concept of correlation and that between multi-variations were discussed,and the definition of correlation degree between terms was presented.Based on the analysis of the correlation between terms of TAN classifier,authors proposed a fomula to evaluate the correlation degree between document feature words and the algorithm of its application to ameliorating Naive Bayesian classifier.The experiments on Reuters- 21578 collection show the improvement of algorithm to be simple,effective and easy to implement.
关 键 词:文本分类 朴素贝叶斯 事件相关 相关度 树扩展型朴素贝叶斯分类器
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.157