新的文本分类特征选择方法研究  被引量:7

New feature selection approach for text categorization

在线阅读下载全文

作  者:张玉芳[1] 王勇[1] 刘明[1] 熊忠阳[1] 

机构地区:[1]重庆大学计算机学院,重庆400044

出  处:《计算机工程与应用》2013年第5期132-135,共4页Computer Engineering and Applications

基  金:重庆市科委自然科学基金计划资助项目(No.2007BB2372);中央高校研究生创新基金(No.CDJXS11180013)

摘  要:特征降维是文本分类过程中的一个重要环节。在现有特征选择方法的基础上,综合考虑特征词在正类和负类中的分布性质,综合四种衡量特征类别区分能力的指标,提出了一个新的特征选择方法,即综合比率(CR)方法。实验采用K-最近邻分类算法(KNN)来考查CR方法的有效性,实验结果表明该方法能够取得比现有特征选择方法更优的降维效果。Feature reduction is an important part in text categorization. On the basis of existing approaches of feature selection, considering the distribution property of feature between the positive class and negative class, combining four measure indicators for feature with categories distinguishing ability, a new approach named Composite Ratio(CR) for feature selection is proposed. Experiment using K-Nearest Neighbor(KNN) algorithm to examine the effectiveness of CR, the result shows that approach has better performance in dimension reduction.

关 键 词:特征降维 文本分类 特征选择 综合比率 K-最近邻分类算法 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象