检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王振飞[1] 袁佩瑶 曹中亚 张利莹 WANG Zhenfei;YUAN Peiyao;CAO Zhongya;ZHANG Liying(School of Computing and Artificial Intelligence,Zhengzhou University,Zhengzhou 450001,China)
机构地区:[1]郑州大学计算机与人工智能学院,郑州450001
出 处:《小型微型计算机系统》2024年第8期1839-1846,共8页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(62276238)资助.
摘 要:针对传统高维不平衡数据集的分类算法存在偏向多数类、忽视少数类等问题,本文提出一种基于密度聚类和重要性度量的特征选择算法(DBIM).首先通过随机降采样的方法构造出多个平衡子集,使用DBSCAN密度聚类方法作为基分类器生成初始特征子空间.然后按照重要度对特征进行排序选择出较强分类的特征.最后,为了避免特征之间的冗余性,设计基于类分布的权重指标与冗余性评价指标相结合的方法进行计算,生成高质量的特征子集.在8个公开数据集上的实验结果表明,本文提出DBIM算法可以生成高相关度且低冗余度的特征子集,对高维不平衡数据集进行有效降维,提高分类性能.To solve the problem thatthat the traditional classification algorithms of high-dimensional unbalanced datasets tend to the majority class and ignore the minority class,a feature selection algorithm based on density clustering and importance measurement is proposed in this paper.DBIM first constructs multiple balanced subsets by random down-sampling method,and uses DBSCAN density clustering method as the base classifier to generate initial feature subspace.Then the features are sorted according to their importance to select the features with strong classification.Finally,to avoid the redundancy among features,DBIM designs a new weight index based on class distribution for calculation combined with the redundancy evaluation index to generate high-quality feature subsets.Experimental results on eight publicly available datasets show that the DBIM algorithm proposed in this paper can generate feature subsets with high relevance and low redundancy,effectively reduce the dimensionality of high-dimensional imbalanced datasets and improve the classification performance.
关 键 词:高维不平衡数据集 密度聚类 特征选择 相关性 冗余性
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15