检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:魏浩 李红 刘小豫 WEI Hao;LI Hong;LIU Xiaoyu(Department of Computer,Xianyang Normal College,Xianyang 712000,Shaanxi China)
机构地区:[1]咸阳师范学院计算机学院,陕西咸阳712000
出 处:《河南科学》2018年第7期1009-1013,共5页Henan Science
基 金:陕西省科学技术研究发展计划项目(2017JM6086);陕西省教育厅科学研究计划项目(16JK1823);咸阳师范学院专项科研基金项目(13XSYK056);咸阳发展研究院基金项目(2018XFY018)
摘 要:少数类样本合成过抽样技术(SMOTE)是一种过抽样数据预处理算法,是在两个少数类之间随机插入一个新的少数类样本.为了解决SMOTE算法生成少数样本随机性的局限性,在考虑多数类样本分布会对少数样本的生成产生影响的基础上,提出了改进的SMOTE算法.在WEKA平台上分别使用改进前后的SMOTE算法对选用的UCI数据集进行过抽样数据预处理,并使用朴素贝叶斯、决策树和K邻近分类器对过抽样后的数据集进行分类,选择几何均数(G-mean)和曲线下面积(AUC)两个评价指标,实验显示改进后的SMOTE算法预处理的数据集的分类效果更好,证明改进后的SMOTE算法生成的少数类样本更加合理.Synthetic minority over-sampling technique(SMOTE)is an over-sampling data preprocessing algorithm,its idea is to randomly insert a new minority sample between two minority class samples.In order to solve the limitation of the SMOTE to generate minority class randomness,an improved SMOTE is proposed considering the influence of majority class distribution.On the WEKA platform,the UCI data sets are over-sampled by SMOTE and the improved SMOTE,then the UCI data sets are classified by Naive Bayesian,decision tree and K-nearest neighbor algorithm,G-mean and area under curve(AUC)are selected as evaluation index.The experiments show that the UCI data sets preprocessed by the improved SMOTE are classified better than SMOTE.
关 键 词:不平衡数据集 少数类样本合成过抽样技术 几何均数 曲线下面积
分 类 号:TP391.9[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.13