基于碱基组成和分布的DNA序列特征提取方法及应用  被引量:1

Feature extraction of DNA sequence based on the base composition and distribution and its applications

在线阅读下载全文

作  者:李玉双[1] 魏东 吕艳芬 LI Yushuang;WEI Dong;LU Yanfen(School of Sciences, Yanshan University, Qinhuangdao, Hebei 066004, China)

机构地区:[1]燕山大学理学院,河北秦皇岛066004

出  处:《燕山大学学报》2018年第1期59-66,74,共9页Journal of Yanshan University

基  金:河北省高等学校青年拔尖人才计划资助项目(BJ2014060);燕山大学"新锐工程"人才支持计划项目

摘  要:通过特征提取方式挖掘生物信息数据中潜在的规律是生物信息学研究的基本问题之一。基于DNA序列的碱基转移概率、含量和位置比三类特征构造了24维特征向量,成功应用于11物种的β-珠蛋白基因完整编码序列和18哺乳动物线粒体基因组序列的相似性比较,构建的系统发生树与进化事实相符。基于该特征向量,结合支持向量机分类方法识别了28株细菌中的必需基因,平均AUC值高达0.808,高于部分识别方法。实验结果说明:生物序列基本构成元素的转移概率、含量和位置比可作为研究生物信息学中相关分类问题的选择性工具。To exploit some potential rules in biological information data based on the feature extraction is one of the basic problems in bioinformatics.The constructed24-D feature vector is composed of base transition probabilities,base contents and base position ratios,and is applied to compare complete coding sequences of p-globin genes of11species and whole mitochondrial genomes of18eutherian mammals respectively.The derived phylogenetic trees are quite agreement with the evolutionary relationship.In addition,the essential genes of28bacteria are successfully identified by combining the feature vector and the support vector machine.The average AUC value is0.808,much higher than some other methods.The results of experiments demonstrate that the proposed three characteristics are alternative classifiers in related bioinformatics research.

关 键 词:转移概率 特征向量 系统发生树 必需基因 支持向量机 

分 类 号:Q332[生物学—遗传学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象