检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]广东第二师范学院数学系,广东广州510303 [2]安徽工业大学数理科学与工程学院,安徽马鞍山243002
出 处:《中山大学学报(自然科学版)》2015年第2期36-42,共7页Acta Scientiarum Naturalium Universitatis Sunyatseni
基 金:国家自然科学基金青年科学基金资助项目(11301090)
摘 要:采用癌症基因图谱计划的蛋白表达数据,即反相蛋白阵列技术(Reverse Phase Protein Arrays,RPPAs)数据进行统计分析,来挖掘蛋白表达数据所隐藏的癌症的相关信息,提高临床诊断的效率和降低检验的成本。通过3组数据的热点图探测到每组数据的网络结构以及样本中不同基因的表达水平;通过主成分分析,得到在3种癌症中蛋白表达水平起重要作用的5种基因,最后以这5种基因的蛋白表达水平为指标建立了3种癌症的判别模型,并计算误判率的回代估计和交叉验证法估计。得到以下结论:3种癌症形成各自的蛋白表达水平相互关系网络结构,3种癌症有共同蛋白表达水平起重要作用的5种基因,3种癌症的判别模型是可靠的。Protein expression data of The Cancer Genome Atlas,namely the Reverse Phase Protein Array data for statistical analysis,are adopted to mine hidden association information between cancer and genes,and to improve the efficiency of clinical diagnosis and to reduce the cost of inspection.Network structure of each group data and expression levels of different genes are gotten through the heat maps. And 5 genes which play an important role in protein expression levels for these 3 kinds of cancers are ob-tained by principal component analysis.Finally,the discriminant model based on the 5 genes for 3 kinds of cancer and the estimation of the misjudgment rate are built by the back substitution method and cross-validation method.It is concluded that the network structure of the protein expression level for each kind of cancer is constructed respectively,5 genes which play an important role in protein expression level are sought out,and the result of linear discriminant model is reliable.
关 键 词:癌症 RPPA数据 热点图 主成分分析 判别模型
分 类 号:O212.2[理学—概率论与数理统计]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.27