流数据环境下基于分歧策略的高效能集成学习  

High efficient ensemble learning based on disagreement strategy in data stream environment

在线阅读下载全文

作  者:秦海[1] 张东波[1] 王俊超[1] 颜霜[1] 

机构地区:[1]湘潭大学信息工程学院,湖南湘潭411105

出  处:《计算机工程与应用》2016年第13期89-94,共6页Computer Engineering and Applications

基  金:国家自然科学基金(No.60835004);湖南省教育厅重点项目(No.14A137);湖南省重点学科资助项目

摘  要:流数据环境下如何利用大量非标记样本进行高效学习是一个非常重要的问题,基于分歧策略的主动学习是一种有效的解决方法,但通常该类算法只考虑具有最大分歧的边界样本,没有考虑训练前期对分歧度小的样本误判后的样本矫正问题,为此,提出一种基于分歧度评价的融合主动学习和集成学习的高效能学习方法。该方法基于样本分歧度和不同的训练阶段,采取不同的非标记样本选取方式。为评价方法性能,在人工流数据和HEp-2细胞图像数据上进行了实验,结果表明该方法相对于目前的Qboost方法,需要的训练样本数少且具有更高的分类精度。It is very important to use a large amount of unlabeled samples for efficient learning in date stream environment.The Active Learning based on the disagreement strategy is an effective solution, but usually, the algorithm only considersthe largest boundary sample, and neglects the possibility of misjudging of the minimum divergence samples in theearlier stage of training. To achieve the label revision of misjudged samples, a highly efficient learning method integratedwith active learning and ensemble learning that based on divergence is proposed. Based on the sample divergence andtraining stages, different selection strategies for unlabeled sample are adopted by this method. To evaluate the effectivenessof the proposed method, experiments are made on the artificial stream date and HEP-2 cell image. Experimental resultsshow that this method needs less training samples and provides a higher classification precision over the existing Qboost.

关 键 词:主动学习 集成学习 分歧度 流数据 HEP-2 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程] TP391.4[自动化与计算机技术—控制科学与工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象