新的CDF文本分类特征提取方法  被引量:11

New feature selection approach(CDF) for text categorization

在线阅读下载全文

作  者:熊忠阳[1] 蒋健[1] 张玉芳[1] 

机构地区:[1]重庆大学计算机学院,重庆400044

出  处:《计算机应用》2009年第7期1755-1757,共3页journal of Computer Applications

基  金:中国博士后科学基金资助项目(20070420711);重庆市科委自然科学基金计划资助项目(2007BB2372)

摘  要:对高维的特征集进行降维是文本分类过程中的一个重要环节。在研究了现有的特征降维技术的基础上,对部分常用的特征提取方法做了简要的分析,之后结合类间集中度、类内分散度和类内平均频度,提出了一个新的特征提取方法,即CDF方法。实验采用K-最近邻分类算法(KNN)来考查CDF方法的有效性。结果表明该方法简单有效,能够取得比传统特征提取方法更优的降维效果。Reducing the high dimension of feature vectors is an essential part of text categorization. After studying current dimension reduction technique and analyzing some normal methods of feature selection, a new approach, named CDF, for feature selection was proposed by comprehensively taking account of concentration among classes, distribution in class and average frequency in class. Experiment takes K-Nearest Neighbor (KNN) as the evaluation classifier. Experimental results prove that CDF approach is simple and effective, and has better performance than conventional feature selection methods in dimension reduction.

关 键 词:文本分类 降维 特征提取 K-最近邻分类算法 评价函数 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象