蛋白质二级结构预测:基于词条的最大熵马尔科夫方法  被引量:3

在线阅读下载全文

作  者:董启文[1] 王晓龙[1] 林磊[1] 关毅[1] 赵健[1] 

机构地区:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001

出  处:《中国科学(C辑)》2005年第1期87-96,共10页Science in China(Series C)

基  金:国家自然科学基金(批准号:60373100)"863"计划(批准号:2002AA117010-09)资助项目

摘  要:提出了一种新的蛋白质二级结构预测方法.该方法从氨基酸序列中提取出和自然语言中的“词”类似的与物种相关的蛋白质二级结构词条,这些词条形成了蛋白质二级结构词典,该词典描述了氨基酸序列和蛋白质二级结构之间的关系.预测蛋白质二级结构的过程和自然语言中的分词和词性标注一体化的过程类似.该方法把词条序列看成是马尔科夫链,通过Viterbi算法搜索每个词条被标注为某种二级结构类型的最大概率,其中使用词网格描述分词的结果,使用最大熵马尔科夫模型计算词条的二级结构概率.蛋白质二级结构预测的结果是最优的分词所对应的二级结构类型.在4个物种的蛋白质序列上对这种方法进行测试,并和PHD方法进行比较.试验结果显示,这种方法的Q3准确率比PHD方法高3.9%,SOV准确率比PHD方法高4.6%.结合BLAST搜索的局部相似的序列可以进一步提高预测的准确率.在50个CASP5目标蛋白质序列上进行测试的结果是:Q3准确率为78.9%,SOV准确率为77.1%.基于这种方法建立了一个蛋白质二级结构预测的服务器,可以通过http://www.insun.hit.edu.cn:81/demos/biology/index.html来访问.

关 键 词:蛋白质二级结构 蛋白质序列 物种 氨基酸序列 CASP 描述 BLAST PHD 取出 预测 

分 类 号:Q51[生物学—生物化学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象