基于双路TCN的长短距离融合学习转录因子结合位点预测  

Transcription Factor Binding Sites Prediction with Long-Short Distance Fusion Learning Based on Dual-path TCN

作  者:吴志强 宋佳智 姜静清[1] 罗蕊[2] WU Zhiqiang;SONG Jiazhi;JIANG Jingqing;LUO Rui(College of Computer Science and Technology,Inner Mongolia Minzu University;College of Life Sciences and Food Engineering,Inner Mongolia Minzu University,Tongliao 028000,China)

机构地区:[1]内蒙古民族大学计算机科学与技术学院 [2]内蒙古民族大学生命科学与食品学院,内蒙古通辽028000

出  处:《软件导刊》2025年第3期31-36,共6页Software Guide

基  金:国家自然科学基金项目(62162050);内蒙古民族大学博士科研启动基金项目(KYQD23006,BS672);内蒙古自然科学基金项目(2021BS03036);蓖麻产业技术创新内蒙古自治区工程研究中心开放课题(MDK2021004,MDK2023012);内蒙古自治区蓖麻产业协同创新中心开放课题(MDK2022016)。

摘  要:准确预测DNA与转录因子的结合位点对深入理解基因表达及调控机理具有重要意义。卷积神经网络(CNN)和长短时记忆网络(LSTM)已成功应用于DNA-转录因子结合位点预测任务,准确性相比传统机器学习方法提升明显。然而,CNN仅擅长学习局部空间信息,无法建模DNA序列中的长距离依赖关系;LSTM网络的顺序处理特性无法实现并行运算,计算效率偏低。为此,提出一种结合双路时间卷积网络(TCN)和长短距离融合学习机制的模型解决上述问题。在网络结构层面,使用时间卷积网络作为序列特征提取器,兼具长距离建模和并行处理的优势,而且双路结构使模型能分离学习DNA互补特征,一定程度上提升了模型的稳定性;在特征学习层面,充分利用时间卷积网络不同层的上下文信息建模能力设计了长短距离融合学习策略,增强了预测特征的表示能力。在165个ChIP-seq数据集上的实验结果表明,该方法的各项指标结果优于当前流行的基于深度学习的方法。通过利用具有不同距离依赖信息的时序特征,可为转录因子结合位点预测提供一个有价值的框架。Accurate identification of transcription factor binding sites(TFBSs)is crucial for understanding gene expression and regulatory mechanisms.Convolutional Neural Network(CNN)and Long Short-Term Memory(LSTM)models have significantly improved accuracy in this task compared to traditional machine learning approaches.However,CNNs specialize in learning local spatial features but ignore long-distance dependencies in DNA sequences,while LSTMs are proficient in learning sequential relationships but computationally inefficient due to a lack of parallel computing ability.This paper proposes a novel dual-path sequential network integrating long-short distance fusion learning to address the above issues.In terms of structure,this paper employs the Temporal Convolutional Network(TCN)as the feature extractor that supports sequential modeling and parallel processing.The dual-path structure can learn complementary DNA features,improving the learning stability.In terms of features,this paper leverages the context information modeling capability of TCN,and designs a long-short distance fusion learning strategy to strengthen the feature representation for prediction.The experiment results on 165 ChIP-seq datasets show that our method outperforms the popular deep learning based methods.This study introduces a valuable framework for TFBSs prediction by combining sequential features with different distance dependency information.

关 键 词:转录因子 结合位点 序列数据处理 时间卷积网络 特征融合 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象