癌症研究中RPPA数据的统计分析  

Statistical Analysis of RPPA Data in Cancer Research

在线阅读下载全文

作  者:乙了[1] 罗冬梅[2] 覃跃海[1] 

机构地区:[1]广东第二师范学院数学系,广东广州510303 [2]安徽工业大学数理科学与工程学院,安徽马鞍山243002

出  处:《中山大学学报(自然科学版)》2015年第2期36-42,共7页Acta Scientiarum Naturalium Universitatis Sunyatseni

基  金:国家自然科学基金青年科学基金资助项目(11301090)

摘  要:采用癌症基因图谱计划的蛋白表达数据,即反相蛋白阵列技术(Reverse Phase Protein Arrays,RPPAs)数据进行统计分析,来挖掘蛋白表达数据所隐藏的癌症的相关信息,提高临床诊断的效率和降低检验的成本。通过3组数据的热点图探测到每组数据的网络结构以及样本中不同基因的表达水平;通过主成分分析,得到在3种癌症中蛋白表达水平起重要作用的5种基因,最后以这5种基因的蛋白表达水平为指标建立了3种癌症的判别模型,并计算误判率的回代估计和交叉验证法估计。得到以下结论:3种癌症形成各自的蛋白表达水平相互关系网络结构,3种癌症有共同蛋白表达水平起重要作用的5种基因,3种癌症的判别模型是可靠的。Protein expression data of The Cancer Genome Atlas,namely the Reverse Phase Protein Array data for statistical analysis,are adopted to mine hidden association information between cancer and genes,and to improve the efficiency of clinical diagnosis and to reduce the cost of inspection.Network structure of each group data and expression levels of different genes are gotten through the heat maps. And 5 genes which play an important role in protein expression levels for these 3 kinds of cancers are ob-tained by principal component analysis.Finally,the discriminant model based on the 5 genes for 3 kinds of cancer and the estimation of the misjudgment rate are built by the back substitution method and cross-validation method.It is concluded that the network structure of the protein expression level for each kind of cancer is constructed respectively,5 genes which play an important role in protein expression level are sought out,and the result of linear discriminant model is reliable.

关 键 词:癌症 RPPA数据 热点图 主成分分析 判别模型 

分 类 号:O212.2[理学—概率论与数理统计]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象