概率密度函数的自适应过采样算法研究  被引量:4

Research on Adaptive Oversampling Algorithm of Probability Density Function

在线阅读下载全文

作  者:张忠林[1] 傅添翼 闫光辉[1] ZHANG Zhong-lin;FU Tian-yi;YAN Guang-hui(College of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)

机构地区:[1]兰州交通大学电子与信息工程学院,兰州730070

出  处:《小型微型计算机系统》2022年第3期514-519,共6页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(61662043,62062049)资助。

摘  要:针对传统的过采样算法中决策边界模糊以及噪声样本分布问题,本文提出一种基于概率密度函数与自适应过采样算法.首先将少数类样本分为安全样本、边界样本、噪声样本;然后采用瑞利分布(Rayleigh Distribution),对安全样本及边界样本进行采样操作,利用其概率密度函数对新样本的分布密度进行构造,以此达到平衡数据集的目的;最后使用随机森林作为分类器,并进行网格搜索(Gridsearch)进行参数寻优.实验结果将所提出的方法与4种代表性算法在10个不均衡数据集上进行了比较,验证了该算法的有效性.Aiming at the problem of fuzzy decision boundary and noise sample distribution in traditional oversampling algorithm,this paper proposes an adaptive oversampling algorithm based on probability density function.Firstly,the minority samples are divided into safety samples,boundary samples and noise samples;then use the Rayleigh distribution to perform sampling operations on the safety samples and boundary samples,and use its probability density function to construct the distribution density of the new sample to achieve the purpose of balancing the data set;finally,random forest is used as the classifier,and Gridsearch is performed to optimize the parameters.The experimental results compare the proposed method with 4 representative algorithms on 10 unbalanced data sets,verifying the effectiveness of the algorithm.

关 键 词:不均衡数据 过采样技术 瑞利分布 随机森林 分类 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象