基于PCA-SMOTE-随机森林的地质不平衡数据分类方法——以东天山地球化学数据为例  被引量:7

Classification of imbalance geological data based on PCA-SMOTE algorithm and random forest: a case study of geochemical data from the eastern Tianshan of China

在线阅读下载全文

作  者:桂州 陈建国[2,3] 王成彬[2,3] GUI Zhou;CHEN Jian-guo;WANG Cheng-bin(School of Geosciences, China University of Petroleum (East China) , Qingdao 257061, China;State Key La-boratory of Geological Processes and Mineral Resources;Faculty of Earth Resources, China University of Geosciences, Wuhan 430074, China)

机构地区:[1]中国石油大学(华东)地球科学与技术学院,山东青岛257061 [2]中国地质大学(武汉)地质过程与矿产资源国家重点实验室,武汉430074 [3]中国地质大学(武汉)资源学院,武汉430074

出  处:《桂林理工大学学报》2017年第4期587-593,共7页Journal of Guilin University of Technology

基  金:国家科技支撑计划项目(2011BAB06B08-2);国家自然科学基金项目(41272361);中国地质调查局项目(1212011120986)

摘  要:基于PCA改进SMOTE算法,能实现不平衡数据集的均衡化,并以随机森林作为分类器,应用于地质数据进行分类与预测。因原始数据集中的噪声数据可能会引起插值后的数据分布形态的改变,故提出结合PCA算法与SMOTE算法,先进行除噪降维再进行数据插值,改善不平衡数据集的分类性能,并对东天山化探样本数据进行实验,结果表明,新算法能较好地提高分类精度,为地质不平衡数据的分类与预测提供新的思路。Based on PCA,this paper puts forward a new SMOTE re-sampling algorithm to make datasets equal.It is applied to the classification and prediction of geological data,by the random forest as the classifier. Because the data noise may change distribution pattern after interpolation,this paper combines PCA and SMOTE algorithm to do data denoising and data interpolation to improve the classification performance. This paper makes experiment of geochemical exploration as a sample data,and the results show that the new algorithm can improve the classification accuracy,which provides a new idea to solve the problem of classification and prediction of geological imbalanced data.

关 键 词:主成分分析 SMOTE 随机森林 不平衡数据集 地球化学数据 除噪 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象