基于交叉分组技术的集成算法研究  

Cross-Grouping Based Ensemble Learning

在线阅读下载全文

作  者:朱小飞[1] 陈龙[1] 王国胤[1] 

机构地区:[1]重庆邮电大学计算机科学与技术研究所

出  处:《计算机科学》2008年第3期158-160,193,共4页Computer Science

基  金:国家自然科学基金项目(No.60373111);重庆市教委科学技术研究项目(No.KJ060517);重庆市自然科学基金重点资助项目(2005BA2003);重庆市优秀中青年骨干教师资助计划

摘  要:集成学习主要通过扰动训练数据集来产生较强泛化能力。研究者们提出了各种各样的方法来实现这一目标,但如何扰动训练数据集以达到最佳的泛化能力并没有被深入研究。本文中,提出了对训练数据集进行扰动的交叉分组(cross-grouping)方法,通过改变交叉因子以实现对训练数据集不同程度的扰动,从而实现当集成规模较小时,得到更强的泛化能力。实验表明,当选择合适的交叉因子时,CG-Bagging泛化能力要强于Bagging和Boosting,略优于Decorate和Random Forests。Ensemble learning is through disturbing training data to generate strong generalization ability. Researchers have proposed a variety of methods to achieve this goal, but how to achieve the best generalization ability by disturbing training data has not been thorough study. In this paper, we give a novel method called cross-grouping to disturb training data, and achieve different degrees of the disturbance of training data by varying cross-factor. Based on this method, we can achieve stronger generalization ability when the ensemble size is small. Experiment shows that with an appropriate choice of cross-factor, the generalization ability of CG-Bagging is stronger than that of Bagging and Boosting, and slightly better than that of Decorate and Random Forests.

关 键 词:机器学习 集成学习 泛化能力 交叉分组 

分 类 号:TP314[自动化与计算机技术—计算机软件与理论] TP393.1[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象