基于基尼相关系数的超高维判别特征筛方法  

Features Screening for Ultra-High Dimensional Discriminant Data Based on Gini Correlation Coefficient

在线阅读下载全文

作  者:宋凤丽[1] 孙威 SONG Feng-li;SUN Wei(School of Mathematics and Statistics,Nanjing University of Information Science and Technology,Nanjing 210044,China)

机构地区:[1]南京信息工程大学数学与统计学院,江苏南京210044

出  处:《数理统计与管理》2024年第6期1073-1083,共11页Journal of Applied Statistics and Management

基  金:南京信息工程大学应用统计国家一流专业建设项目;2023年国家级一流本科课程(2023230870);2023年江苏省研究生科研创新计划(KYCX23_1288);南京信息工程大学2021年“课程思政”示范课程项目(KCSZ015);国家自然科学基金资助项目(11771215)。

摘  要:本文针对超高维判别分类数据,基于基尼相关系数构建了无模型假设下的特征筛选方法,对连续型特征进行筛选,并将其推广到响应变量为连续型变量,自变量为离散变量的情形。在一定的正则条件下证明了确定筛选性质和指标排序相合性,并采用蒙特卡罗模拟和实例验证了筛选方法的有效性。该研究为超高维数据的特征筛选提供了一种新方法,并扩展了概率统计中独立性概念的应用。This paper proposes a model-free discriminant screening method based on the Gini correlation coefficient for screening continuous features in ultra-high dimensional classification data.Additionally,the method can be generalized to cases where the response variable is continuous and the independent variable is discrete.The proposed feature screening method satisfies the sure screening property and ranking consistency property under certain regular conditions.Finally,the effectiveness of the screening method has been verified through Monte Carlo simulation and analysis of real data.This study provides a novel approach to feature selection in high-dimensional data and extends the application of the concept of independence in statistical theory.

关 键 词:超高维数据 特征筛选 基尼相关系数 

分 类 号:O212[理学—概率论与数理统计]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象