检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王小燕[1] 冮建伟 王洁丹 王德青[3] Wang Xiaoyan;Gang Jianwei;Wang Jiedan;Wang Deqing
机构地区:[1]湖南大学金融与统计学院 [2]长沙理工大学数学与统计学院 [3]中国矿业大学经济管理学院
出 处:《统计研究》2025年第2期122-134,共13页Statistical Research
基 金:国家自然科学基金面上项目“多源数据融合的高维整合分析分类模型及其信用风险应用”(72271088);教育部人文社会科学基金规划项目“面向超高频金融数据的函数型分类预测方法及应用研究”(22YJAZH099);湖南省研究生科研创新项目“多源数据的深度神经网络及其应用”(CX20230418);国家社会科学基金后期资助重点项目“金融市场函数型数据挖掘的统计方法及应用研究”(24FTJA001)。
摘 要:随着计算机技术的发展,各行各业累积和存储了丰富的数据。这些数据往往具有来源差异性、高维性特点,基于这些特征的多源数据建模是统计学的热点问题。针对多源异质数据,本文提出深度神经网络整合分析模型(IADNN)。该模型建立了L_(1)-CMCP惩罚,以识别重要特征以及处理数据的异质性,其中外层MCP识别对多源数据集整体显著的特征;中层MCP识别特征在数据集层面的异质性;内层Lasso识别DNN节点的异质性。这种嵌套设计旨在促进数据集间的信息共享。本文对L_(1)-CMCP进行局部线性近似,再采用近端梯度下降算法进行模型估计。模拟分析表明,IADNN在特征选择和分类预测方面均有良好表现。当多源数据部分异质时,所提方法的F_(1)分数、FPR等评估指标均优于各数据集独立建模和合并建模的方法;在多源数据完全异质或完全同质时,所提方法取得了与理论最佳模型相近的效果。最后,将IADNN应用于不同经济发展水平地区的信用违约数据,发现该模型在风险指标选择和违约预测方面具备有效性。With the development of computer technology,all walks of life have accumulated and stored rich data.They often have characteristics of source diversity and high dimensionality,and modeling multi-source data based on these characteristics is a popular topic in statistics.For the multi-source heterogeneous data,the study proposes the Integrative Analysis Deep Neural Network(IADNN),which employs the L_(1)-CMCP penalty to identify significant feature variables and address data heterogeneity.The outer layer of L_(1)-CMCP identifies features that significantly impact the entire multi-source data,the middle layer identifies the heterogeneity of features at the dataset level,and the inner Lasso layer detects heterogeneity among DNN nodes.This nested design is intended to enhance information sharing.For model estimation,a local linear approximation and a proximal gradient descent algorithm are adopted.Simulation study shows that the proposed IADNN performs satisfactorily in terms of feature selection and classification prediction.When the multi-source data are partially heterogeneous,the evaluation metrics of the IADNN model,such as the F_(1)score and the FPR,outperform both independent modeling and merged modeling approaches.When the multi-source data are completely heterogeneous or homogeneous,IADNN performance is similar to the theoretical best model.Lastly,the application of IADNN to credit default data from regions with different economic levels demonstrates its effectiveness in selecting risk indicators and predicting default.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7