中文文本分类的特征选取评价  被引量:14

An Evaluation of Feature Selection Methods for Text Categorization

在线阅读下载全文

作  者:孙国菊[1] 张杰[2] 

机构地区:[1]辽宁信息职业技术学院,辽宁辽阳111000 [2]解放军炮兵学院运筹教研组,安徽合肥230031

出  处:《哈尔滨理工大学学报》2005年第1期76-78,共3页Journal of Harbin University of Science and Technology

摘  要:在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种 特征选取方法(文档频度DF、互信息MI、信息增益IG、x2统计X2、术语强度TS)进行评价,选用 NaIve Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.实验结果表明,DF和x2 的分类性能十分接近,处于较好水平;而TS分类性能稍差一些;IG和MI的分类性能与其他相比都 有较大的差距.特别是在特征数目少的情况下,MI和IG的结果较差.在特征数目为1000时,MI的 F1值为64.60%;IG为69.36%,而DF则达到87.01%.This paper evaluates five feature selection methods for text categorization. We study the following feature selection methods: Document Frequency (DF), Mutual Information (MI); Information Gains (IG); statistics; Term Strength (TS). We use naive Bayes as text classifier and conduct the experiments on a Chinese text corpus. The experimental results show that DF and x2 are top performers in this evaluation. In contrast, IG and MI provide a lower performance. In specially, MI and IG perform worse when the feature size is small. When the feature size is 1000, MI yields 64.60% F,, IG is 69.36% and DF provides 87.01%.

关 键 词:文本分类 特征选取 文本表示 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象