文本分类中一种基于选择的二次特征降维方法  被引量:8

A Method of Reducing Features Based on Feature Selection Twice in Text Classification

在线阅读下载全文

作  者:刘海峰[1] 王元元[1] 姚泽清[1] 陈琦[1] 

机构地区:[1]解放军理工大学,南京210007

出  处:《情报学报》2009年第1期23-27,共5页Journal of the China Society for Scientific and Technical Information

基  金:国家自然科学基金资助项目(编号:70571087).

摘  要:特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的。对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好。Feature selection and feature extraction are the primary method of reducing features in text classification. At present, the existed feature selection methods mainly focus on finding relevant features to the sorts but rarely take into account the feature redundancy, so it is the main reason of lower effect in reducing dimensionality. In this paper we bring forward a method based on feature selection twice. This method no/ only calculates the features that have more class information, but also reduce some redundancy. In precondition of the information loss least, we complete the text feature decrease smart. The test shows that this method has a better precision in the text categorization

关 键 词:文本分类 特征选择 互信息 期望交叉熵 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP391.41[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象