检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张雷 王家琪 费职友 罗帅 隋京岐 ZHANG Lei;WANG Jiaqi;FEI Zhiyou;LUO Shuai;SUI Jingqi(School of Mathematics and Statistics,Chongqing Jiaotong University,Chongqing 400074,China;School of Economics and Management,Chongqing Jiaotong University,Chongqing 400074,China;School of Information Science and Engineering,Chongqing Jiaotong University,Chongqing 400074,China)
机构地区:[1]重庆交通大学数学与统计学院,重庆400074 [2]重庆交通大学经济与管理学院,重庆400074 [3]重庆交通大学信息科学与工程学院,重庆400074
出 处:《现代电子技术》2020年第16期76-81,共6页Modern Electronics Technique
基 金:国家自然科学基金项目(11401061);国家自然科学基金项目(11501065);重庆市教委项目(KJ1600504,KJ1600512)。
摘 要:大数据时代下,用户信用数据中的高维稀疏特征与样本不平衡现象日益显著。为处理高维特征,文中采用随机森林(RF)从Filter和Wrapper角度进行特征提取,并用SMOTE算法对训练集样本做采样处理。模型训练阶段使用粒子群优化算法对XGboost模型做分类精度提高。最后,采用一开源银行数据集提供的数据进行实例验证。结果表明,相较于一般的GBDT模型和网格搜索法,所建立的模型在评估时具有更好的精度与收敛性。In the era of big data,the imbalanced phenomenon between high⁃dimensional sparse features and samples in user credit data is increasingly obvious.In order to deal with high⁃dimensional features,RF(random forest)is used in this paper to extract the features by Filter and Wrapper methodes,and SMOTE algorithm is used to perform sampling processing of the training set samples.In the model training stage,particle swarm optimization algorithm is used to improve the classification accuracy of XGboost model.The data provided by Xiamen International Bank is used for example verification.The results show that,in comparison with the common GBDT model and grid search method,the model established in this paper has better accuracy and convergence in evaluation direction.
关 键 词:信用风险评估 SMOTE算法 特征提取 采样处理 XGboost 实例验证
分 类 号:TN915.08-34[电子电信—通信与信息系统] TP391.9[电子电信—信息与通信工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.137.156.0