一种基于互信息的模糊粗糙分类特征基因快速选取方法  被引量:6

Fast Approach to Mutual Information Based Gene Selection with Fuzzy Rough Sets

在线阅读下载全文

作  者:徐菲菲[1] 魏莱[2] 杜海洲[1] 王文欢[3] 

机构地区:[1]上海电力学院计算机与信息工程学院,上海200090 [2]上海海事大学信息工程学院,上海201303 [3]上海电力学院能源与环境工程学院,上海200090

出  处:《计算机科学》2013年第7期216-221,235,共7页Computer Science

基  金:国家重点基础研究发展计划(973计划)子课题(2009CB219801);上海市教育委员会科研创新项目(12YZ140);上海高校青年教师培养资助计划(sdl11003);上海电力学院人才引进基金(K-2011-002)资助

摘  要:依据基因表达谱建立有效肿瘤分类模型的关键在于准确找出决定样本类别的一组特征基因。粗糙集理论已成功应用于肿瘤分类特征基因选取中。然而,粗糙集方法处理连续值的基因表达谱数据集所必需的离散化过程会使得部分信息丢失,对所选取的特征基因的分类精度造成一定影响。因此,曾提出基于互信息的模糊粗糙集基因表达谱数据集特征基因的选取算法。然而,该算法计算代价较高,当所选取的基因数较多时难以实现。为此,对该算法进行了改进,从最大相关性和最重要性(最小冗余)两方面对互信息进行了近似替代计算,大大降低了算法的复杂度,提高了算法的效率。以急性白血病亚型(leukemia)、直肠癌(colon)和乳腺癌(Breast)分类特征基因选取为例进行实验,然后分别采用1NN和SVM分类器进行特征基因分类精度检验,结果证实了新方法的可行性和有效性。Feature selection is an essential step to perform cancer classification with DNA microarrays. Rough set theory has already been successfully applied to gene selection. To avoid losing information by discretization of continuous gene expression data in rough set theory,the theory of fuzzy rough sets is applied to gene selection. A fuzzy rough attribute reduction algorithm based on mutual information was proposed and applied to gene selection. The cost of computation of the algorithm is too high to be carried out if the number of the selected genes is large. This paper raised an approximate replacement of computation of the mutual information, from both maximum relevance and maximum significance. The novel method improves the efficiency and decreases the complexity. Extensive experiments were conducted on three pub- lic gene expression datasets. The experimental results confirm the efficiency and effectiveness of the algorithm.

关 键 词:特征选取 模糊粗糙集 互信息 基因表达谱数据集 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象