随机森林:一种重要的肿瘤特征基因选择法  被引量:15

RANDOM FORESTS:AN IMPORTANT FEATURE GENES SELECTION METHOD OF TUMOR

在线阅读下载全文

作  者:李建更[1] 高志坤[1] 

机构地区:[1]北京工业大学电子信息与控制工程学院,北京100124

出  处:《生物物理学报》2009年第1期51-56,共6页Acta Biophysica Sinica

基  金:国家自然科学基金项目(60234020)~~

摘  要:特征选择技术已经被广泛地应用于生物信息学科,随机森林(random forests,RF)是其中一种重要的特征选择方法。利用RF对胃癌、结肠癌和肺癌等5组基因表达谱数据进行特征基因选择,将选择结果与支持向量机(support vector machine,SVM)结合对原数据集分类,并对特征基因选择及分类结果进行初步的分析。同时使用微阵列显著性分析(signific antanalysis of microarray,SAM)和ReliefF法与RF比较,结果显示随机森林选择的特征基因包含更多分类信息,分类准确率更高。结合该方法自身具有的分类方面的诸多优势,随机森林可以作为一种可靠的基因表达谱数据分析手段被广泛使用。Feature selection techniques have been widely applied to bioinformatics, where random forests (RF) is an important one. To prove the advantage of RF, significance analysis of microarray (SAM) and ReliefF were employed to compare with it. Support Vectors Machine (SVM) was used to test the feature genes selected by the three methods. The comparison results show that feature genes of RF contain more classification information and can get higher accuracy rate when were applied to classification. As a reliable method, RF should be applied in bioinformatics broadly.

关 键 词:肿瘤 特征选择 随机森林 SAM RELIEFF 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象