检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:董奇达 王喆[1] 吴松洋[2] DONG Qi-da;WANG Zhe;WU Song-yang(School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China;The Third Research Institute of Ministry of Public Security,Shanghai 201204,China)
机构地区:[1]华东理工大学信息科学与工程学院,上海200237 [2]公安部第三研究所,上海201204
出 处:《计算机科学》2022年第5期129-134,共6页Computer Science
基 金:上海市科技计划项目(20511100600,21511100800);国家自然科学基金(62076094);信息网络安全公安部重点实验室开放课题项目(C20603)。
摘 要:不平衡问题在现实世界中普遍存在,而不平衡数据的分布不平衡性会严重影响模型的性能。不平衡数据通常从两方面影响模型性能:一方面是数量上的不平衡导致多数类的数据对参数有更多的更新,导致模型更加偏向多数类;另一方面是少数类样本特别少,多样性不足从而导致模型表征能力不足。针对上述问题,提出了一个结合注意力机制与几何信息的特征融合框架。具体而言,该模型首先通过预训练使模型学习数据的语义信息和判别性信息,并结合注意力机制发掘模型对不同类别数据的关注点。在第二阶段,模型通过几何信息挖掘边界特征,并且结合第一阶段得到的注意力权重对边界特征进行融合,从而对少数类的数据进行补充。基于长尾CIFAR10,CIFAR100和KDDCup99数据集的实验结果表明,所提的结合注意力机制与几何信息的特征融合框架能够有效提升对不平衡数据的分类性能,并且对于不同类型的数据,包括图像数据和结构化数据,都能有效提高分类性能。The imbalanced problem is common in the real world,and the highly-skewed distribution of imbalanced data seriously affects the performance of the model.In general,the imbalanced data affects the model performance from two aspects.On the one hand,the imbalance in sample size leads to more updates of parameters in majority classes,which leads to the model biased to majority classes.On the other hand,the sample size of minority classes is too small,and the diversity is insufficient,which leads to the insufficient representation ability of the model.To solve these problems,this paper proposes a feature fusion framework combining attention mechanism and geometric information.Specifically,in the first stage,the model learns the semantic information and discriminative information of the data through pre-training,and combines the attention mechanism to discover where the mo-del pays more attention.In the second stage,the model uses geometric information to mine boundary features,and combines the attention weight obtained in the first stage to fuse the boundary features,so as to supplement minority classes.Experimental results on long tail CIFAR10,CIFAR100 and KDD Cup99 datasets show that the proposed feature fusion framework combining attention mechanism and geometric information can effectively improve the classification performance of imbalanced data,and can effectively improve the classification performance for different types of data,including image data and structured data.
关 键 词:不平衡数据 特征融合 深度学习 注意力机制 几何信息
分 类 号:TP183[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222