结合通路信息对复杂疾病进行表型预测的SGL方法  

在线阅读下载全文

作  者:杨家骥 余星皓 曾平 黄水平 

机构地区:[1]徐州医科大学公共卫生学院流行病与卫生统计学系,221004

出  处:《中国卫生统计》2021年第4期556-558,562,共4页Chinese Journal of Health Statistics

摘  要:目的将整合通路信息的sparse group LASSO方法与近年来发表的表型预测方法进行比较,通过模拟各种复杂疾病可能的遗传结构,比较各方法的预测能力,期望通过TCGA数据找到高效和稳健的统计方法。方法本研究利用SGL方法整合基因途径信息和基因表达数据,并与传统模型(LASSO、Enet、GSSLASSO)进行比较。通过乳腺癌真实基因型数据模拟表型数据:考虑不同分组(分组k=50,200,300,328)和不同遗传度对模型的影响(遗传度h 2=0.3,0.5,0.8)。采用相关系数R评价几种模型的预测能力,进一步通过结直肠癌(CRC)、胰腺癌(PAAD)、乳腺癌(BRCA)三个真实数据比较各方法表型预测的准确性。结果模拟结果表明,随着遗传度的增高,各方法的预测准确性也逐渐增高。整合通路信息的SGL方法和GSSLASSO方法比传统的LASSO和Enet方法有着更高的预测精度。而两种整合通路信息的方法中,SGL方法有着更好的预测能力和稳定性。在50,200,300分组情况下,GSSLASSO预测效果和LASSO以及Enet相近,但是在考虑通路信息的328分组下,GSSLASSO表现出了较好的预测效果。实例数据分析CRC,PAAD数据中,SGL方法具有最优的预测精度,其次是GSSLASSO,LASSO和Enet方法预测效果最差。结论整合通路信息的预测方法预测效果明显优于一般模型,而无论是在模拟数据还是实例数据中SGL的方法具有最优的预测精度。

关 键 词:遗传风险预测 基因表达 KEGG通路 

分 类 号:R195.1[医药卫生—卫生统计学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象