基于类内频率的文本分类特征选择方法  被引量:5

Feature selection method for text categorization based on frequency in kind

在线阅读下载全文

作  者:崔彩霞[1] 王素格[2] 

机构地区:[1]太原师范学院计算机系,山西太原030012 [2]山西大学数学科学学院,山西太原030006

出  处:《计算机工程与设计》2007年第17期4249-4251,4265,共4页Computer Engineering and Design

基  金:山西省青年科技基金项目(20031027)

摘  要:随着计算机技术和WWW的飞速发展,文本分类已经成为信息检索的关键技术之一,而特征选择对分类效果起着至关重要的作用。对文本分类的4种常用特征选择方法进行了介绍和分析,提出了一种基于类内频率的特征选择方法。选用kNN法和支持向量机作为分类器,利用以上5种文本特征选择方法在平衡语料和非平衡语料上进行了测试。实验结果表明,该方法能够有效选出真正对分类有意义的特征,分类效果较好,尤其适合支持向量机分类器。With the development at full speed of the technology of the computer and WWW, text categorization had become one of the key technologies of information retrieval, and feature selection played a very important role to categorization result. Four common feature selection methods in text categorization are introduced and analyzed. And a feature selection method based on frequency in kind is proposed. Then combined with the kNN and the support vector machine, the test of five methods is carried out on the balance language material and non-balance language material. The experiment result indicates that the method can select meaningful features and has a better classification result, especially is suitable for SVM.

关 键 词:文本分类 特征选择 文档频率 信息增益 互信息 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象