一种改进的文本分类特征选择方法  被引量:10

Improved feature selection method for text categorization

在线阅读下载全文

作  者:黄秀丽[1] 王蔚[1] 

机构地区:[1]南京师范大学教育科学学院机器学习与认知实验室,南京210097

出  处:《计算机工程与应用》2009年第36期129-130,240,共3页Computer Engineering and Applications

基  金:全国教育科学"十五"规划教育部重点基金项目(NoDCA050056);江苏省教育科学"十一五"规划项目(NoD/2006/01/096)

摘  要:文本分类中特征空间的高维问题是文本分类的主要障碍之一。特征选择(Feature Selection)是一种有效的特征降维方法。现有的特征选择函数主要有文档频率(DF),信息增益(IG),互信息(MI)等。基于特征的基本约束条件以及高性能特征选择方法的设计步骤,提出了一种改进的特征选择方法SIG。该特征选择方法在保证分类效果的同时,提高了对中低频特征的偏向。在语料集Reuters-21578上的实验证明,该方法能够获得较好的分类效果,同时有效提高了对具有强分类能力的中低频特征的利用。High dimensionality is one of the main problems in text categorization.Feature selection methods can be regarded as an effective way.Main feature selection methods are document frequency,information gain,mutual information,and so on.This paper improves a new feature selection method SIG based on TTC and a universal method for developing feature selection functions. This method emphasizes the terms with middle and low frequencies and gets a good classification performance.Experiments on Reuters-21578 collection imply that this method is effective and can make better use of the terms with middle and low frequencies.

关 键 词:文本分类 特征选择 信息增益 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象