基于决策森林特征基因的两种识别方法  被引量:2

Two feature gene recognition methods basedon decision forest

在线阅读下载全文

作  者:吕飒丽[1] 汪强虎[1] 李霞[1] 郭政[1] 

机构地区:[1]哈尔滨医科大学生物信息学系,黑龙江哈尔滨150086

出  处:《生物信息学》2004年第3期19-22,共4页Chinese Journal of Bioinformatics

基  金:国家自然科学基金 (3 0 3 70 798;3 0 170 5 15 );国家 863计划(2 0 0 3AA2Z2 0 51;2002AA2Z2 0 5 2 );黑龙江科技攻关重点(GB0 3C60 2 -4 );黑龙江卫生厅;211工程"十五"项目

摘  要:应用DNA芯片可获得成千上万个基因的表达谱数据。寻找对疾病有鉴别力的特征基因 ,滤掉与疾病无关的基因是基因表达谱数据分析的关键问题。利用决策森林方法的集成优势 ,提出基于决策森林的两种特征基因识别方法。该方法先由决策森林按照一定的显著性水平滤掉大部分与疾病类别无关的基因 ,然后采用统计频数法和扰动法 ,根据所选特征对分类的贡献程度对初选的特征基因作更加精细地选择。最后 ,选用神经网络作为外部分类器对所选的特征基因子集进行评价 ,将提出的方法应用于 4 0例结肠癌组织与 2 2例正常组织中 2 0 0 0个基因的表达谱实验数据。结果表明 :上述两种方法选出的特征基因均具有较高的疾病鉴别能力 ,均可获得最优特征基因子集 ,基于决策森林的统计频数法优于扰动法。The expression profiles of thousands of genes can be detected by DNA chips. It is crucial important to filter lots of genes unrelated to diseases and find discriminating genes in the analysis of gene expression profiles data. we investigate two feature selection methods by using the ensemble advantage of decision forest. We first filter most genes which are unrelated with diseases according to certain significant level, then on the basis of it , we apply frequency and permutation methods respectively to carry out feature selection according to their contribution to classifying. We evaluate the selected feature subset by artificial neural network method and then practise them on the data of 40 colon cancer examples and 22 normal examples which include 2000 genes.The result has shown that the selected feature genes using two methods both have higher classification efficiency and can gain the most excellent feature gene subset based on the previous feature selection,the former is better than the latter.

关 键 词:BOOTSTRAP 决策森林 人工神经网络 特征基因 

分 类 号:Q189[生物学—神经生物学] TP392[生物学—普通生物学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象