基因表达数据判别分析的随机森林方法  被引量:21

The Application of Random Forests for the Classification of Gene Expression Data

在线阅读下载全文

作  者:武晓岩[1] 李康[1] 

机构地区:[1]哈尔滨医科大学卫生统计学教研室,150001

出  处:《中国卫生统计》2006年第6期491-494,共4页Chinese Journal of Health Statistics

基  金:国家自然科学基金资助(30371253);黑龙江省重点项目(GB04C30202)

摘  要:目的探讨随机森林算法在基因表达数据分类研究中的应用。方法通过实际基因表达数据考核其应用效果,并通过模拟试验进一步验证和研究在存在大量无差异表达基因情况下对分类产生的影响。结果随机森林算法对基因表达数据的分类具有较高的准确性,但随着基因数量的增加其判别效果呈下降的趋势,在差异表达基因之间具有相关性时,下降趋势明显减慢,能够获得较理想的分类效果。结论随机森林算法对基因表达数据的分类研究有较好的判别效果。Objective We investigate the use of random forests for classification of gene expression data. Methods The method is applied to real datasets. The result of simulated experiment validation shows the effect of classification with many undifferentiated expressed genes. Results Random Forests preserves excellent performance in class prediction with gene expression data but decline exists when the number of genes increases. We can obtain better predictive accuracy that the decline is slower when differentially expressed genes are related. Conclusion Random Forests possesses excellent performance in the classification of gene expression data.

关 键 词:分类树 随机森林 基因表达数据 模拟试验 

分 类 号:R195[医药卫生—卫生统计学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象