基于随机森林的潜在k近邻算法及其在基因表达数据分类中的应用  被引量:44

Random forest based potential k nearest neighbor classifier and its application in gene expression data

在线阅读下载全文

作  者:杨帆[1] 林琛[2] 周绮凤[1] 符长虹[1] 罗林开[1] 

机构地区:[1]厦门大学自动化系,厦门361005 [2]厦门大学计算机科学系,厦门361005

出  处:《系统工程理论与实践》2012年第4期815-825,共11页Systems Engineering-Theory & Practice

基  金:国家自然科学基金(60975052);中央高校基本科研业务费专项资金(2010121065)

摘  要:随机森林被广泛应用于包括癌症诊断在内的生物信息学领域.从自适应k近邻的角度分析了随机森林的分类机理,分析其存在的信息损失,据此提出一种新的投票机制,称为基于随机森林的潜在k近邻算法RF-PN,能够充分利用决策树上的OOB样本信息,显著改善随机森林的分类性能.6个癌症基因表达数据集上的对比实验表明,RF-PN的分类准确率优于原算法.Random forests(RF) has been widely used in bioinformatics especially in cancer diagnosis. This paper studies the classification scheme of RF from the viewpoint of adaptive k nearest neighbors, analyzes the information loss in RF,and proposes a new voting method called RF-based potential nearest neighbor which can use the information of OOB samples in each tree and show significant improvement. Comparison result on 6 cancer gene expression datasets demonstrated that RF-PN got better predictive accuracy than RF.

关 键 词:随机森林 潜在k近邻 基因表达数据 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象