基于k-modes聚类的不平衡数据混合采样方法  被引量:1

Hybrid Sampling Approach to Imbalance Data Based on k-modes Clustering

在线阅读下载全文

作  者:张艳 江峰[1] 杜军威[1] 刘国柱[1] 眭跃飞[2] 

机构地区:[1]青岛科技大学信息科学技术学院,山东青岛266061 [2]中国科学院计算技术研究所,北京100190

出  处:《济南大学学报(自然科学版)》2017年第6期499-505,共7页Journal of University of Jinan(Science and Technology)

基  金:国家自然科学基金项目(61273180;61402246);山东省自然科学基金项目(ZR2014FM015;ZR2012FL17);山东省高等学校科技计划项目(J11LG05)

摘  要:针对现有的不平衡数据处理方法存在不能有效处理分类型数据、盲目采样及抗噪声能力差等问题,提出一种基于k-modes聚类的不平衡数据混合采样算法HS_WODKM;首先提出一种基于加权重叠距离的k-modes聚类算法WODKM,然后采用改进的合成少数过采样技术(SMOTE)算法与WODKM分别对不平衡数据进行过采样与降采样处理,从而获得一种新的不平衡数据混合采样算法HS_WODKM;HS_WODKM采用增加正类样本并减少负类样本的混合采样策略解决样本类别不平衡问题,用来处理分类型数据,并且能够克服现有方法存在的抗噪能力差、删除重要样本等缺陷;为了验证HS_WODKM的性能,在多个分类型UCI数据集上进行实验。结果表明,采用HS_WODKM算法处理分类型不平衡数据是可行且有效的。Aiming at the problem that the existing unbalanced data processing method could not effectively deal with the classification data,blind sampling and poor anti-noise ability,an imbalance data hybrid sampling algorithm HS_WODKM based on k-modes clustering was proposed. To deal with the categorical imbalance data,a k-modes clustering algorithm called WODKM was proposed,which was based on the weighted overlap distance,then the improved synthetic minority over-sampling technique(SMOTE) algorithm and WODKM were used to respectively oversample and downsample the imbalance data,from which a novel hybrid sampling algorithm called HS_WODKM for imbalance data was obtained. HS_WODKM used the hybrid sampling strategy( i. e.,adding positive samples and deleting negative samples) to solve the imbalance problem of sample category,deal with the categorical data and overcome the drawbacks of existing methods,e.g.,poor noise immunity,removing important samples,etc.. Several UCI data were set to verify the performance of HS_WODKM. Experimental results show that HS_WODKM is feasible and efficient for handling the categorical imbalance data.

关 键 词:不平衡数据 分类型数据 k-modes聚类 过采样技术 混合采样 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象