基于不平衡数据的特征选择算法研究  

Feature Selection Algorithm Based on Imbalanced Data

在线阅读下载全文

作  者:张珏[1] 田建学[1] ZHANG Jue;TIAN Jian-xue(School of Information Engineering,Yulin University,Yulin 719000,China)

机构地区:[1]榆林学院信息工程学院,陕西榆林719000

出  处:《榆林学院学报》2023年第5期61-63,共3页Journal of Yulin University

基  金:国家自然科学基金资助项目(62266047);榆林市科技局产学研项目(CXY-2022-66);榆林市高新区科学计划项目(CXY-2021-30,CXY-2021-44);榆林学院博士科研启动金(22GK03)。

摘  要:不平衡分类问题广泛存在于医学检测、人脸识别、异常检测等领域,研究表明对于不平衡数据分类,有效的特征选择算法至关重要。对特征选择算法Laplacian进行改进,在考虑不平衡数据分类评价指标的同时,提出基于改进的Laplacian特征选择算法,该算法首先使用Laplacian分数对特征进行评估;其次通过聚类对选择的特征进行聚类;最后通过聚类后的标签和真实的标签来计算每个特征子集的归一化信息,有着最高归一化值的特征子集即为最优特征子集。实验结果表明,本文提出的算法能有效进行不平衡数据的特征选择,在一定程度上提高了小类的分类性能。Class imbalance is a problem that is commonly associated to numerous applications and domains such as medical testing,face detection,anomaly detection and other fields.Thid study shows that for classification of imbalanced data,an effective feature selection algorithm is crucial.Thus,a feature selection technique based on improved Laplacian is proposed which has considered the overall evaluation metrics of imbalanced data carefully.This algorithm consists of three stages,first,computing the Laplacian score of each feature;second,clustering the feature subset,and third,computing the mutual information from clusters and ground truth.The feature subset which has the highest mutual information is the optimal subset.The experiment results demonstrate the effectiveness of the proposed method for feature selection.

关 键 词:特征选择 不平衡数据 支持向量机 拉普拉斯算法 

分 类 号:TP309[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象