二次集成学习在医疗数据挖掘中的应用  被引量:1

An Application in Medical Data Mining Based on Twice Ensemble Learning

在线阅读下载全文

作  者:魏秀参[1] 慕鑫[1] 杨杨[1] 

机构地区:[1]南京大学计算机软件新技术国家重点实验室,南京210023

出  处:《计算机科学与探索》2014年第9期1113-1119,共7页Journal of Frontiers of Computer Science and Technology

基  金:国家自然科学基金;江苏省自然科学基金~~

摘  要:CCDM 2014数据挖掘竞赛基于医学诊断数据,提出了实际生活中广泛出现的多类标问题和多类分类问题。针对两个问题出现的类别不平衡现象以及训练样本较少等特点,为了更好地完成数据挖掘任务,借助二次学习和集成学习的思想,提出了一个新的学习框架——二次集成学习。该学习框架通过首次集成学习得到若干置信度较高的样本,将其加入到原始训练集,并在新的训练集上进行二次学习,进而得到泛化性能更高的分类器。竞赛结果表明,与常用的集成学习相比,二次集成学习在两个问题上均取得了非常理想的结果。This CCDM 2014 Data Mining Competition focused on the medical diagnosis datasets. It proposed two popular problems in real world, i.e., multi-label problem and multi-class classification problem. In order to solve these data mining tasks much better, aiming at the problems of class imbalance and less training instances, this paper proposes a new learning framework, i.e., the twice ensemble learning framework, to tackle these difficulties. This new frame-work can get some instances with higher confidence, and inputs them into the original training dataset. Finally, it can obtain classifiers with higher generalization capability. The results of this competition show that the twice ensemble learning framework can get very ideal performance on these two problems.

关 键 词:二次学习 集成学习 类别不平衡学习 数据挖掘 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象