基于集成分类器的蛋白质折叠模式识别  

Protein fold pattern recognition based on ensemble classifiers

在线阅读下载全文

作  者:胡始昌[1] 江弋[1] 林琛[1] 邹权[1] 

机构地区:[1]厦门大学信息科学与技术学院,福建厦门361005

出  处:《生物信息学》2012年第2期112-115,共4页Chinese Journal of Bioinformatics

基  金:国家自然科学基金(61001013;61102136);福建省自然科学基金(2011J05158)

摘  要:蛋白质折叠问题被列为"21世纪的生物物理学"的重要课题,他是分子生物学中心法则尚未解决的一个重大生物学问题,因此预测蛋白质折叠模式是一个复杂、困难、和有挑战性的工作。为了解决该问题,我们引入了分类器集成,本文所采用的是三种分类器(LMT、RandomForest、SMO)进行集成以及188维组合理化特征来对蛋白质类别进行预测。实验证明,该方法可以有效表征蛋白质折叠模式的特性,对蛋白质序列数据实现精确分类;交叉验证和独立测试均证明本文预测准确率超过70%,比前人工作提高近10个百分点。Protein folding problem is listed as an important issue of 21 st century bio - physics and it is a major unresolved biological problem for the central dogma of molecular biology, so predicting protein folding model is a complex, difficult and challenging work. It is introduced an ensemble classifier to solve such this problem. We use three classifiers (LMT, Random Forest, and SMO) and the 188 -dimensional combination of characteristics algorithm for analyzing and predicting the class of protein fold pattern. Experiments show that it can predict the type of protein fold pattern effectively by using the ensemble classifier and classify the experimental data accurately. Cross -validation and independent testing have proved that the accuracy rate can be higher than 70%, improving by close to 10 percent than previous work.

关 键 词:集成分类器 蛋白质二级结构 分类 折叠模式 

分 类 号:Q523.8[生物学—生物化学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象