融合Doc2vec与GCN的多类型蛋白质相互作用预测方法  

Prediction of multitype protein interactions combining Doc2vec and GCN

在线阅读下载全文

作  者:曹汉童 陈璟 CAO Hantong;CHEN Jing(School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi 214122,China;Jiangsu Provincial Engineering Laboratory of Pattern Recognition and Computing Intelligence,Jiangnan University,Wuxi 214122,China)

机构地区:[1]江南大学人工智能与计算机学院,江苏无锡214122 [2]江南大学江苏省模式识别与计算智能工程实验室,江苏无锡214122

出  处:《智能系统学报》2023年第6期1165-1172,共8页CAAI Transactions on Intelligent Systems

基  金:江苏省青年自然科学基金项目(BK20150159).

摘  要:多类型蛋白质−蛋白质相互作用(protein-protein interaction,PPI)的研究是从系统角度理解生物过程和揭示疾病机制的基础。现有的GNN-PPI、PIPR等针对多类型PPI预测方法在采用广度和深度优先搜索对数据集进行划分时,测试准确率会显著下降,因此本文基于Doc2vec方法思想和图卷积神经网络(graph convolutional network,GCN)技术,提出了一种新的多类型PPI预测方法GDP(GCN Doc2vec PPI)。该方法无需依赖蛋白质的物理和生物学特性,仅用序列信息对蛋白质进行编码,并结合网络结构信息对蛋白质进行特征聚合形成PPI信息,从而对其进行多类型预测。实验结果表明,该方法在不同规模的真实数据中可以有效地提高多类型PPI预测准确率,尤其是在训练集中未曾见过的新蛋白质之间的PPI。The study of multitype protein-protein interactions(PPIs)is the basis for understanding biological processes and revealing disease mechanisms from a systematic perspective.Existing prediction methods for multiple types of PPIs,such as GNN-PPI and PIPR,show a considerable decline in test accuracy when the breadth-and depth-first searches are used to divide data sets.Therefore,this paper proposes a new multitype PPI prediction method(GDP)based on the Doc2vec method and graph convolutional neural network technology,which does not need to rely on the physical and biological properties of proteins.Moreover,the method only uses sequence information to encode proteins and combines the network structure information to conduct characteristic protein polymerization for developing PPI information to perform multitype prediction.Experimental results show that this method can effectively improve the prediction accuracy of multiple type PPIs in real data with different scales,especially in PPI between new proteins that have not been previously observed in the training set.

关 键 词:PPI网络 图神经网络 蛋白质功能预测 深度学习 生物学意义 复杂网络 图卷积神经网络 非监督学习 蛋白质序列 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] Q811.4[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象