检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:严远亭[1] 戴涛 张以文[1] 赵姝[1] 张燕平[1] YAN Yuan-ting;DAI Tao;ZHANG Yi-wen;ZHAO Shu;ZHANG Yan-ping(School of Computer Science and Technology,Anhui University,Hefei 230601,China)
机构地区:[1]安徽大学计算机科学与技术学院,合肥230601
出 处:《小型微型计算机系统》2021年第7期1360-1370,共11页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(61806002,61673020,61872002,61876001)资助;安徽大学博士科研启动基金项目(J01003253)资助。
摘 要:不平衡数据学习是机器学习中一个研究热点,近年来得到广泛的关注.以SMOTE为代表的过采样方法是不平衡数据学习的主流方法之一,近年来涌现出大量的基于SMOTE的改进过采样方法.但是,当前对过采样的研究中,如何利用样本分布信息,实现高效的过采样,仍然是一个具有挑战的问题.本文提出一种有监督的样本空间分布学习方法,用以学习少数类样本的局部邻域信息,并以局部邻域信息约束过采样过程中样本的合成,以降低线性插值可能带来的噪声以及样本重叠等不利因素,从而提高过采样的效率.在典型不平衡数据集上的实验表明,利用少数类样本邻域信息为约束,能有效提升过采样的效率.Imbalanced data learning is one of the research hotspots in machine learning and has received widespread attention.Synthetic Minority Oversampling TEchnique(SMOTE)is one of the mainstream methods for learning imbalanced data.In recent years,many variations of SMOTE have emerged.However,how to use sample distribution information to boost efficient oversampling performance is still a challenge.This paper proposes a supervised sample spatial distribution learning method to learn the local neighborhood information of minority samples and then it uses the local neighborhood information to constrain the downstream oversampling process.The main mechanism under the proposed method is to avoid generating potential noise samples or overlapping samples caused by the linear interpolation in the SMOTE methodology to improve the oversampling performance.Experiments on typical imbalanced data sets and seven state-of-the-art comparison methods show that our method can improve the efficiency of oversampling process by using minority neighborhood information.
关 键 词:不平衡学习 过采样 SMOTE 邻域信息 噪声样本
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.119.29.162