四种模式分类方法应用于基因表达谱分析的比较研究  被引量:3

Research on Pattern Classification Methods Using Gene Expression Data

在线阅读下载全文

作  者:王海芸[1] 李霞[1] 郭政[1] 张瑞杰[1] 

机构地区:[1]哈尔滨医科大学生物信息学系

出  处:《生物医学工程学杂志》2005年第3期505-509,共5页Journal of Biomedical Engineering

基  金:国家自然科学基金资助项目(39970397;30170515;30370798);国家863计划(2002AA222052);黑龙江科技攻关(GB03C602-4);黑龙江自然科学基金(F0177);211工程"十五"建设项目

摘  要:利用基因表达谱数据借助于模式分类的方法识别癌症等疾病的类型及不同亚型是DNA芯片技术的一个应用方面。在这篇文章中,我们研究比较了在不同的特征基因选择方法的情况下,Fisher线性判别,Logit非线性判别,最小距离和K-最近邻四种模式分类方法对疾病分型效能的影响及四种模式分类方法的泛化能力,同时研究了在样本构成变化的情况下,模式分类方法的稳定性。结果发现:运用t检验法和分类树选择的特征基因,明显优于随机选择的基因在四种不同的分类器中分类效果;四种分类器中,K最近邻分类器的分类效能最优;基于最小距离的分类器和K最近邻分类器有较强的泛化能力;四种模式分类对样本构成的变化呈较好的稳定性。One of the applications of cDNA microarrays is to recognize the class and subclass of diseases such as cancers on the basis of statistical pattern classification methods using gene expression data. In this paper, we apply 2000 genes expression dataset provided by Affymatrix Company: 40 samples of intestine cancer tissue and 22 samples of normal tissue. We compare the performance of four pattern classification methods based on different feature selection methods. These pattern classification methods include : Fisher linear discriminate, Logit nonlinear discriminate, the least distance and K-nearest neighbor classifier. The results show firstly that four pattern classifiers based on the feature selection methods of t-test and classification tree all have better performance than those based on the stochastic feature selection methods, secondly that K-nearest neighbor classifier has the best performance, thirdly that both the least distance classifier and K-nearest neighbor classifier have better generalization, fourthly that four classifiers are less sensitive to the composition of samples.

关 键 词:分类方法 基因表达谱 癌症 统计分类器 DNA芯片生物学技术 

分 类 号:R195.1[医药卫生—卫生统计学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象