基于改进信息增益的特征选择方法研究  被引量:2

Research on Feature Selection Method Based on Improved Information Gain

在线阅读下载全文

作  者:董露露 马宁[1] DONG Lu-lu;MA Ning(Anhui Open University,Hefei Anhui 230022,China)

机构地区:[1]安徽广播电视大学

出  处:《萍乡学院学报》2019年第3期84-90,共7页Journal of Pingxiang University

基  金:国家开放大学一般课题(G18F1805Y);安徽高校自然科学重点项目(KJ2019A0968);安徽省高校优秀青年人才支持计划重点项目(gxyqZD2016454)

摘  要:信息增益是最有效的特征选择方法之一,但在处理不平衡数据集时其分类性能却急剧下降。针对这一不足,文章从三个方面对传统信息增益进行改进,提出一种改进的信息增益特征选择方法。首先,去除特征项不出现因子以降低对分类的干扰;其次,引入最大词频比因子以抑制低频词的干扰;最后,融入类内词频分布差异离散度和类间分布差异加权离散度因子以衡量特征项在类内和类间的分布差异。在不平衡数据集上的实验结果表明,改进的信息增益不仅可以从很大程度上改善少数类的分类性能,也使总体分类性能得到了明显提升。Information gain(IG)is one of the most effective feature selection methods.However,the classification performance of traditional IG will decline sharply on unbalanced datasets.Considering that,an improved IG based on three improvements is proposed in this paper.Firstly,it removes the factor of feature’s absence to lower the disturbance for classification.Secondly,it introduces the factor called“max word frequency ratio”to suppress interference of low frequency words.Lastly,it measures the difference of feature distribution on the intra-class and inter-class by integrating intra-class and inter-class dispersion.Experiment results on unbalanced datasets show that the proposed IG can not only improve the classification performance of the minority class,but also help overall performance.

关 键 词:文本分类 特征选择 不平衡数据集 信息增益 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象