检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中南大学信息科学与工程学院,长沙410083 [2]中南大学物理科学与技术学院,长沙410083
出 处:《计算机工程》2007年第7期28-29,32,共3页Computer Engineering
摘 要:提出了一个基于符号序列LZ复杂性相似度和K近邻规则的蛋白质亚细胞位点类型预测的方法。相比许多其他特征参数,蛋白质序列的LZ复杂性相似度计算无需深入的生物学领域知识和除序列数据以外的其他辅助数据。同时,K近邻规则的延迟学习特性适合于亚细胞位点类型已知的蛋白质数据的动态增加。在标准的RH数据集上对该预测方法进行10重交叉验证,其总体的预测准确率优于4种对照预测方法。A method to predict the subcellular location of proteins is proposed based on the LZ complexity similarity of symbolic sequences and K nearest neighbor rule. Compared to many other features, the calculation of the LZ complexity similarity between protein sequences requires little detailed field knowledge of biology, nor accessorial data besides the sequences of proteins. The lazy learning characteristic of the K nearest neighbor rule facilitates the prediction of protein subcellular location when the number of proteins, which subcellular location has been determined, increases dynamically. The proposed prediction method is tested on the standard RH dataset using a 10-Fold cross validation. The total precision of the proposed method is better than the results of other tour contrast methods.
关 键 词:生物信息学 LZ复杂性相似度 K近邻 蛋白质 亚细胞位点
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.146.221.49