基于IG_CDmRMR的二阶段特征选择方法  被引量:2

Two-stage Feature Selection Method Based on IG_CDmRMR

在线阅读下载全文

作  者:朱文峰 于舒娟 何伟 ZHU Wenfeng;YU Shujuan;HE Wei(College of Electronic and Optical Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210000,China)

机构地区:[1]南京邮电大学电子与光学工程学院

出  处:《计算机工程》2019年第9期183-187,193,共6页Computer Engineering

基  金:国家自然科学基金(61302155,61276429)

摘  要:为提高特征提取方法的文本分类精确度,结合信息增益(IG)和改进的最大相关最小冗余(mRMR),提出一种IG_CDmRMR二阶段文本特征选择方法。通过IG提取与类别相关性较强的特征集合,利用类差分度动态改变mRMR中特征与类别之间的互信息值权重,并筛选最优特征子集,从而得到文本分类结果。实验结果表明,与IG方法、IG_mRMR方法相比,在特征数量相同的情况下,该方法可使准确率提升约2 %。In order to improve the text classification accuracy of feature extraction method,combining with Information Gain (IG) and improved minimal Redundancy Maximal Relevance(mRMR),an IG_CDmRMR two-stage text feature selection method is proposed.The IG is used to extract the feature set with strong correlation with the category.The class difference degree is used to dynamically change the weight of the mutual information value between the feature and the category in the mRMR,and the optimal feature subset is filtered to obtain the text categorization result.Experimental results show that compared with the IG method and the IG_mRMR method,the accuracy of the proposed method is improved by about 2 % with the same number of features.

关 键 词:信息增益 最大相关最小冗余 类差分度 特征选择 文本分类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象