检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张蝶依 ZHANG Dieyi(Zhumadian Vocational and Technical College,Zhumadian,Henan,China 463000)
出 处:《湖南邮电职业技术学院学报》2023年第4期33-38,共6页Journal of Hunan Post and Telecommunication College
基 金:2023年驻马店职业技术学院科技研发项目“大数据背景下高职院校信息化管理路径研究”(项目编号:2023J1006)。
摘 要:数据的高维和分布不平衡是回归问题求解的两大难题。高维数据包含的无关特征以及冗余特征会影响特征子集的质量,数据分布不平衡导致模型在学习过程中更偏向于大样本,丢失小样本的重要信息。针对上述问题,提出结合LRSFFS特征搜索和GMM聚类分析的LightGBM集成方法LightGBMLG。所提出的算法与3种传统回归算法(SVR、XGBoost、CatBoost)在5个标准UCI高维数据集(YearPredictionMSD、PM2.5 Data of Five Chinese Cities、Superconductivty Data、BlogFeedback、Automobile)上进行对比,均取得最优结果。二手车价格预测的平均绝对误差比传统DNN、XGBoost模型降低了34.41%和11.83%,可为二手车定价提供可供参考的数据。There are two difficult problems in solving regression problems,the high dimension of data and the imbalance of distribution.The irrelevant and redundant features contained in high-dimensional data can affect the quality of feature subsets.Unbalanced data distribution causes the model to prefer large samples during the learning process,and loses important information of small samples.Aiming at the above problems,a LightGBM integration method,LightGBMLG,which combines LRSFFS feature search and GMM cluster analysis,is proposed.Compared with three traditional regression algorithms(SVR,XGBoost,CatBoost)on five standard UCI high-dimensional datasets(YearPredictionMSD,PM2.5 Data of Five Chinese Cities,Superconductivity Data,BlogFeedback,Automobile),the proposed algorithm achieves the best results.The average absolute error of used car price prediction is 34.41%and 11.83%lower than that of traditional DNN and XGBoost models,which can provide reference data for used car pricing.
关 键 词:高维不平衡数据 GMM聚类 LightGBM 特征选择 回归问题
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.214