检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]哈尔滨医科大学生物信息学系
出 处:《生物医学工程学杂志》2005年第3期505-509,共5页Journal of Biomedical Engineering
基 金:国家自然科学基金资助项目(39970397;30170515;30370798);国家863计划(2002AA222052);黑龙江科技攻关(GB03C602-4);黑龙江自然科学基金(F0177);211工程"十五"建设项目
摘 要:利用基因表达谱数据借助于模式分类的方法识别癌症等疾病的类型及不同亚型是DNA芯片技术的一个应用方面。在这篇文章中,我们研究比较了在不同的特征基因选择方法的情况下,Fisher线性判别,Logit非线性判别,最小距离和K-最近邻四种模式分类方法对疾病分型效能的影响及四种模式分类方法的泛化能力,同时研究了在样本构成变化的情况下,模式分类方法的稳定性。结果发现:运用t检验法和分类树选择的特征基因,明显优于随机选择的基因在四种不同的分类器中分类效果;四种分类器中,K最近邻分类器的分类效能最优;基于最小距离的分类器和K最近邻分类器有较强的泛化能力;四种模式分类对样本构成的变化呈较好的稳定性。One of the applications of cDNA microarrays is to recognize the class and subclass of diseases such as cancers on the basis of statistical pattern classification methods using gene expression data. In this paper, we apply 2000 genes expression dataset provided by Affymatrix Company: 40 samples of intestine cancer tissue and 22 samples of normal tissue. We compare the performance of four pattern classification methods based on different feature selection methods. These pattern classification methods include : Fisher linear discriminate, Logit nonlinear discriminate, the least distance and K-nearest neighbor classifier. The results show firstly that four pattern classifiers based on the feature selection methods of t-test and classification tree all have better performance than those based on the stochastic feature selection methods, secondly that K-nearest neighbor classifier has the best performance, thirdly that both the least distance classifier and K-nearest neighbor classifier have better generalization, fourthly that four classifiers are less sensitive to the composition of samples.
关 键 词:分类方法 基因表达谱 癌症 统计分类器 DNA芯片生物学技术
分 类 号:R195.1[医药卫生—卫生统计学]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222