检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王伟[1] 郑小琪[1] 窦永超[2] 刘太岗[3] 赵娟[1] 王军[1,4]
机构地区:[1]上海师范大学数理学院,上海200234 [2]大连理工大学数学科学学院,大连116024 [3]山东农业大学信息科学与工程学院,泰安271018 [4]上海高校科学计算重点实验室,上海200234
出 处:《生物信息学》2011年第2期171-175,180,共6页Chinese Journal of Bioinformatics
基 金:国家自然科学基金(No.10731040);上海市重点科学项目(No.S30405);上海教育厅创新项目(No.09zz134)
摘 要:蛋白质的亚细胞位点信息有助于我们了解蛋白质的功能以及它们之间的相互作用,同时还可以为新药物的研发提供帮助。目前普遍采用的亚细胞位点预测方法主要是基于N端分选信号或氨基酸组分特征,但研究表明,单纯基于N端分选信号或氨基酸组分的方法都会丢失序列的序信息。为了克服此缺陷,本文提出了一种基于最优分割位点的蛋白质亚细胞位点预测方法。首先,把每条蛋白质序列分割为N端、中间和C端三部分,然后在每个子序列和整条序列中分别提取氨基酸组分、双肽组分和物理化学性质,最后我们把这些特征融合起来作为整条序列的特征。通过夹克刀检验,该方法在NNPSL数据集上得到的总体精度分别是87.8%和92.1%。Protein subcellular locations has immediate relevance for understanding protein function and designing new drug.Present methods are mainly based on sorting signals or amino acid compositions.However,methods based solely on sorting signals or amino acid compositions may lose the sequence order information.To overcome the shortcomings,we divided each chain into three parts:N-terminal,middle,and C-terminal.Then,features were extracted from each part and the whole chain independently.These features are amino acid compositions,dipeptides,and stereochemical properties.Finally,features of different parts are combined and the combined features are used as features of the whole chain.By Jackknife test on the NNPSL dataset,our overall accuracies for prokaryotic and eukaryotic proteins are 87.8% and 92.1%,respectively.
关 键 词:蛋白质序列 亚细胞位点 夹克刀检验 总体精度 特征融合
分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.20