基于特征贡献度与线性搜索的特征选择方法  被引量:2

Research on Feature Selection Method Based on Features Contribution Degree and Linear Search

在线阅读下载全文

作  者:郭文斌 丘康平 蔡惠坤 Guo Wenbin;Qiu Kangping;Cai Huikun(School of Electrical and Mechanical Engineering,Guangdong University of Technology,Guangzhou 510006;Guangzhou Guangri Elevator Industry Co.,Ltd.,Guangzhou 511447;CMIC Internet Co.,Guangzhou 510640)

机构地区:[1]广东工业大学机电工程学院,广州510006 [2]广州广日电梯工业有限公司,广州511447 [3]中移互联网有限公司,广州510640

出  处:《现代计算机》2021年第23期6-10,共5页Modern Computer

摘  要:基于大数据技术和常规特征工程的数据预处理方法可以得到适用于机器学习、深度学习等算法模型所需要的数据,但是在数据建模之前对数据特征进行选择和筛选,降低高维数据中的冗余特征以达到最佳模型性能是当今数据科学家们重点研究的内容之一。本文提出了基于XGBoost算法对特征进行贡献度分析作为基础,结合线性搜索的算法对数据进行特征选择,与传统的基于特征空间的搜索算法,具有在更小的搜索空间下找到更优子集的特点。最后讨论了当前基于线性搜索的特征选择的问题和挑战。Data preprocessing methods based on big data techniques and conventional feature engineering can obtain data suitable for algorithmic models such as machine learning and deep learning,but selecting and filtering data features before data modeling and re⁃ducing redundant features in high-dimensional data to achieve the best model performance is one of the key research elements for data scientists today.In the paper,we propose the XGBoost algorithm based on the contribution analysis of features as the basis,combined with the linear search algorithm for feature selection of data,which has the feature of finding a better subset in a smaller search space compared with the traditional feature space-based search algorithm.Finally,current problems and challenges of feature selection based on linear search are discussed.

关 键 词:线性搜索 特征排序 特征选择 机器学习 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象