DBN在蛋白质编码区识别问题中的应用研究  被引量:2

Application of Deep Belief Network in Recognition of Protein Coding Regions

在线阅读下载全文

作  者:胡青渝 刘广臣 HU Qingyu;LIU Guangchen(School of Mathematics&Statistics Science,Ludong University,Yantai,Shandong 264025,China;School of Mathematics&Statistics,Chongqing University,Chongqing 401331,China)

机构地区:[1]鲁东大学数学与统计科学学院,山东烟台264025 [2]重庆大学数学与统计学院,重庆401331

出  处:《计算机工程与应用》2020年第4期247-255,共9页Computer Engineering and Applications

基  金:教育部产学合作协同育人项目(No.201801034031);山东省本科教改面上项目(No.M2018X066);鲁东大学引进人才基金项目(No.LB2017005);国家级大学生创新创业训练计划项目(No.201710451150)

摘  要:针对真核生物DNA序列中蛋白质编码区的识别问题,提出基于深度置信网络(Deep Belief Network,DBN)的组合模型。通过信号处理技术对真核生物的DNA序列进行数值转换,并结合统计学知识提取转换后DNA序列的数值特征;利用随机森林对所提取的特征变量降维;用深度置信网络模型对DNA序列分类判别;根据短时傅里叶变换(Short Time Fourier Transform,STFT)技术对外显子区准确定位。在三个标准测试集上比较组合模型与传统Logistic回归模型、贝叶斯判别模型的判别效果,结果显示,深度置信网络组合模型的准确率和特异度等指标都明显优于Logistic回归模型和贝叶斯判别模型。To identify the protein coding regions in eukaryotic DNA sequences,a combination model based on Deep Belief Network(DBN)is proposed.Firstly,the DNA sequence of eukaryotes is converted numerically by signal processing technology and combined with statistical knowledge to extract the numerical features of the transformed DNA sequence.Secondly,the dimensionality of the extracted features variables is reduced by random forest.Then,the DNA sequence is classified and distinguished by deep belief network model.Finally,the Short Time Fourier Transform(STFT)is used to locate the external exons accurately.The results show that the accuracy and specificity of deep belief network combination model are better than those of Logistic regression model and Bayes discriminant model.

关 键 词:编码区识别 信号处理 随机森林 深度置信网络(DBN) 短时傅里叶变换(STFT) 

分 类 号:Q819[生物学—生物工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象