检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:郭文斌 丘康平 蔡惠坤 Guo Wenbin;Qiu Kangping;Cai Huikun(School of Electrical and Mechanical Engineering,Guangdong University of Technology,Guangzhou 510006;Guangzhou Guangri Elevator Industry Co.,Ltd.,Guangzhou 511447;CMIC Internet Co.,Guangzhou 510640)
机构地区:[1]广东工业大学机电工程学院,广州510006 [2]广州广日电梯工业有限公司,广州511447 [3]中移互联网有限公司,广州510640
出 处:《现代计算机》2021年第23期6-10,共5页Modern Computer
摘 要:基于大数据技术和常规特征工程的数据预处理方法可以得到适用于机器学习、深度学习等算法模型所需要的数据,但是在数据建模之前对数据特征进行选择和筛选,降低高维数据中的冗余特征以达到最佳模型性能是当今数据科学家们重点研究的内容之一。本文提出了基于XGBoost算法对特征进行贡献度分析作为基础,结合线性搜索的算法对数据进行特征选择,与传统的基于特征空间的搜索算法,具有在更小的搜索空间下找到更优子集的特点。最后讨论了当前基于线性搜索的特征选择的问题和挑战。Data preprocessing methods based on big data techniques and conventional feature engineering can obtain data suitable for algorithmic models such as machine learning and deep learning,but selecting and filtering data features before data modeling and re⁃ducing redundant features in high-dimensional data to achieve the best model performance is one of the key research elements for data scientists today.In the paper,we propose the XGBoost algorithm based on the contribution analysis of features as the basis,combined with the linear search algorithm for feature selection of data,which has the feature of finding a better subset in a smaller search space compared with the traditional feature space-based search algorithm.Finally,current problems and challenges of feature selection based on linear search are discussed.
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:13.59.212.110