检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘振宇 宋晓莹[2] LIU Zhen-yu;SONG Xiao-ying(School of Computer Science and Engineering,Northeastern University,Shenyang 110819,China;School of Computer,Dalian Neusoft University of Information,Dalian,Liaoning 116023,China)
机构地区:[1]东北大学计算机科学与工程学院,沈阳110819 [2]大连东软信息学院计算机学院,辽宁大连116023
出 处:《计算机科学》2022年第1期108-114,共7页Computer Science
基 金:国家自然科学基金(61772101)。
摘 要:针对线性回归、SVR以及大部分多变量回归树等回归模型不能直接利用分类型属性进行回归分析的问题,提出了一种可联合多种类型属性的决策树结点划分方法。该方法通过定义样本集合在分类型属性上的中心以及样本到中心的距离,使得分类型属性也可以像数值型属性一样参与样本的聚类过程,从而形成样本集的划分。之后,文中又为由该方法产生的决策树选择了合适的集成方案,生成的集成器被称为聚类回归森林(CRF)。最后,在12个UCI公开数据集上对比CRF与其他9个回归模型的回归平均绝对误差(MAE)和均方根误差(RMSE),实验结果表明,CRF在10个回归模型中具有最好的表现。As categorical attributes cannot be utilized directly in some regression models like the linear regression,SVR and most multivariate regression trees,a multivariate split method dealing with multiple types of data is prompted in this paper.We define the centers of the sample sets on the categorical attributes and the distances from the samples to the centers in order that the categorical attributes can also participate in the clustering process like the numerical attributes.Then a reasonable ensemble scheme is selected for the decision trees generated by the method to get the ensemble called cluster regression forest(CRF).Finally,we use CRF and other 9regression models to compare regression mean absolute error(MAE)and root mean square error(RMSE)on12UCI public data sets.The experimental results show that CRF has the best performance among the 10regression models.
关 键 词:决策树 多变量回归树 集成学习 随机森林 梯度提升
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3