检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]辽宁信息职业技术学院,辽宁辽阳111000 [2]解放军炮兵学院运筹教研组,安徽合肥230031
出 处:《哈尔滨理工大学学报》2005年第1期76-78,共3页Journal of Harbin University of Science and Technology
摘 要:在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种 特征选取方法(文档频度DF、互信息MI、信息增益IG、x2统计X2、术语强度TS)进行评价,选用 NaIve Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.实验结果表明,DF和x2 的分类性能十分接近,处于较好水平;而TS分类性能稍差一些;IG和MI的分类性能与其他相比都 有较大的差距.特别是在特征数目少的情况下,MI和IG的结果较差.在特征数目为1000时,MI的 F1值为64.60%;IG为69.36%,而DF则达到87.01%.This paper evaluates five feature selection methods for text categorization. We study the following feature selection methods: Document Frequency (DF), Mutual Information (MI); Information Gains (IG); statistics; Term Strength (TS). We use naive Bayes as text classifier and conduct the experiments on a Chinese text corpus. The experimental results show that DF and x2 are top performers in this evaluation. In contrast, IG and MI provide a lower performance. In specially, MI and IG perform worse when the feature size is small. When the feature size is 1000, MI yields 64.60% F,, IG is 69.36% and DF provides 87.01%.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.31