检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张忠林[1] 傅添翼 闫光辉[1] ZHANG Zhong-lin;FU Tian-yi;YAN Guang-hui(College of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)
机构地区:[1]兰州交通大学电子与信息工程学院,兰州730070
出 处:《小型微型计算机系统》2022年第3期514-519,共6页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(61662043,62062049)资助。
摘 要:针对传统的过采样算法中决策边界模糊以及噪声样本分布问题,本文提出一种基于概率密度函数与自适应过采样算法.首先将少数类样本分为安全样本、边界样本、噪声样本;然后采用瑞利分布(Rayleigh Distribution),对安全样本及边界样本进行采样操作,利用其概率密度函数对新样本的分布密度进行构造,以此达到平衡数据集的目的;最后使用随机森林作为分类器,并进行网格搜索(Gridsearch)进行参数寻优.实验结果将所提出的方法与4种代表性算法在10个不均衡数据集上进行了比较,验证了该算法的有效性.Aiming at the problem of fuzzy decision boundary and noise sample distribution in traditional oversampling algorithm,this paper proposes an adaptive oversampling algorithm based on probability density function.Firstly,the minority samples are divided into safety samples,boundary samples and noise samples;then use the Rayleigh distribution to perform sampling operations on the safety samples and boundary samples,and use its probability density function to construct the distribution density of the new sample to achieve the purpose of balancing the data set;finally,random forest is used as the classifier,and Gridsearch is performed to optimize the parameters.The experimental results compare the proposed method with 4 representative algorithms on 10 unbalanced data sets,verifying the effectiveness of the algorithm.
关 键 词:不均衡数据 过采样技术 瑞利分布 随机森林 分类
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49