基于有向混合图的蛋白质新功能预测  被引量:5

Novel protein-function prediction using a directed hybrid graph

在线阅读下载全文

作  者:傅广垣 余国先[1,2] 王峻[1] 张自力[1] 

机构地区:[1]西南大学计算机与信息科学学院,重庆400715 [2]吉林大学符号计算与知识工程教育部重点实验室,长春130012

出  处:《中国科学:信息科学》2016年第4期461-475,共15页Scientia Sinica(Informationis)

基  金:国家自然科学基金(批准号:61402378,61101234);重庆市基础与前沿研究计划(批准号:cstc2014jcyj A40031);中央高校基本科研业务费(批准号:XDJK2014C044,2362015XK07)资助项目

摘  要:蛋白质执行着生物体内各种重要生物活动,对蛋白质功能的准确标注能极大地促进生命科学研究与应用.传统的湿实验法通量低,已无法测定高通量技术产生的海量蛋白质功能,基于计算模型的大规模蛋白质功能预测是后基因时代生物信息学的核心任务之一.当前基于机器学习的方法通常仅关注对完全未标记功能的蛋白质的功能预测,而忽略了已标注功能的蛋白质可能存在的自身功能标记的不完整性,预测精度有限.本文结合基因本体层次结构关系和蛋白质互作网信息,设计了一种有向混合图(directed hybrid graph,d HG)对上述信息进行描述,并在此基础上提出一种基于有向混合图重启动随机游走的蛋白质功能预测方法——d HG.本文提出的d HG方法不仅能补充已知部分功能标记的蛋白质新功能,还能预测功能完全未知的蛋白质新功能.在酵母菌和人类蛋白质上的实验结果表明,d HG在多种评价度量上的预测性能均优于现有方法,且效率更高.Proteins carry out various important activities in an organism.Accurately annotating their functions can boost the advance of life-science research and application.High-throughput techniques generate such a large volume of proteomic and genomic data that it is beyond the capability of low-throughput wet-lab based techniques.Thus,computational model-based large-scale protein-function prediction is one of the key tasks in the post-genomic era.Current machine-learning based methods often focus on predicting the functions of completely unlabeled proteins.These methods ignore the incomplete labels of the labeled proteins,and hence have low accuracy.In this paper,we design a directed Hybrid Graph(d HG) based on the gene ontology hierarchy and the protein-protein interaction network.Next,we use the d HG to predict novel functions by performing a random walk with restart on it.The proposed d HG can predict not only new functions for partially labeled proteins,but also new functions for completely unlabeled proteins.Experimental results on proteins of yeast and humans show that d HG,across various evaluation metrics,achieves better results than other related methods,and costs less time than these methods.

关 键 词:蛋白质功能预测 机器学习 有向混合图 随机游走 基因本体 蛋白质互作网 

分 类 号:Q51[生物学—生物化学] TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象