检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:董露露 马宁[1] DONG Lu-lu;MA Ning(Anhui Open University,Hefei Anhui 230022,China)
机构地区:[1]安徽广播电视大学
出 处:《萍乡学院学报》2019年第3期84-90,共7页Journal of Pingxiang University
基 金:国家开放大学一般课题(G18F1805Y);安徽高校自然科学重点项目(KJ2019A0968);安徽省高校优秀青年人才支持计划重点项目(gxyqZD2016454)
摘 要:信息增益是最有效的特征选择方法之一,但在处理不平衡数据集时其分类性能却急剧下降。针对这一不足,文章从三个方面对传统信息增益进行改进,提出一种改进的信息增益特征选择方法。首先,去除特征项不出现因子以降低对分类的干扰;其次,引入最大词频比因子以抑制低频词的干扰;最后,融入类内词频分布差异离散度和类间分布差异加权离散度因子以衡量特征项在类内和类间的分布差异。在不平衡数据集上的实验结果表明,改进的信息增益不仅可以从很大程度上改善少数类的分类性能,也使总体分类性能得到了明显提升。Information gain(IG)is one of the most effective feature selection methods.However,the classification performance of traditional IG will decline sharply on unbalanced datasets.Considering that,an improved IG based on three improvements is proposed in this paper.Firstly,it removes the factor of feature’s absence to lower the disturbance for classification.Secondly,it introduces the factor called“max word frequency ratio”to suppress interference of low frequency words.Lastly,it measures the difference of feature distribution on the intra-class and inter-class by integrating intra-class and inter-class dispersion.Experiment results on unbalanced datasets show that the proposed IG can not only improve the classification performance of the minority class,but also help overall performance.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.40