基于蛋白质二级序列的关联多分类算法  被引量:1

Association multi-classification algorithm based on protein secondary structure sequence

在线阅读下载全文

作  者:杨炳儒[1] 周谆[1] 侯伟[1] 

机构地区:[1]北京科技大学信息工程学院,北京100083

出  处:《系统工程与电子技术》2010年第6期1318-1324,共7页Systems Engineering and Electronics

基  金:国家自然科学基金重点项目(60675030);北京市自然科学基金(4022008)资助课题

摘  要:蛋白质二级结构预测是公认的生物信息学领域的国际性难题。以基于内在认知机理的知识发现理论(knowledge discovery theory based on inner cognitive mechanism,KDTICM)理论的扩展性研究与数据库中的知识发现(knowledge discovery in database*,KDD*)模型为基础,提出一种基于结构序列的多分类算法——SAC(structuralassociation classification),可以有效地解决蛋白质二级结构预测问题。该算法借助设定支持度阈值的精化知识库的方法,其预测准确率能够超过85%。以该算法为核心,构建了一个蛋白质二级预测模型——复合金字塔模型。实验证明,在RS126、CB513I、LP数据集上的预测准确率均超过80%,超过目前已知的国际主流水平。The prediction of protein secondary structure is one of the major issues in Bioinformatics.As one of the researches of KDTICM theory,a multi-classification algorithm based on structure sequence is proposed,which is based on knowledge discovery in database*(KDD*) model.The SAC algorithm can effectively solve the problem of protein secondary structure prediction.The algorithm's accuracy exceeded by 85% by using the reduction of knowledge base through the setting of the confidence threshold value.A compound pyramid model is built with the SAC algorithm being regarded as a kernel.Experimental results show that the predictive accuracy exceeded by 80% when using in the datasets of RS126,CB513 and ILP,which is equivalent or even excels known national and international levels.

关 键 词:关联分类 蛋白质二级结构预测 数据库中的知识发现 复合金字塔模型 

分 类 号:TP182[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象