基于二层特征筛选的HIV-1蛋白酶特异位点预测  被引量:1

HIV-1 protease cleavage site prediction based on two stage feature selection method

在线阅读下载全文

作  者:袁啸尘[1] 钮冰[1] 尹京苑[2] 

机构地区:[1]上海大学生命科学学院,上海200444 [2]上海大学计算机工程与科学学院,上海200072

出  处:《生物信息学》2012年第4期274-279,共6页Chinese Journal of Bioinformatics

基  金:上海市优秀青年教师基金(SHU10022);国家自然科学基金(20973108)

摘  要:在抗艾滋病治疗中,HIV-1蛋白酶抑制剂发挥着重要作用。对于HIV-1蛋白酶裂解作用位点的研究有助于找到新的治疗靶点。为了对HIV-1蛋白酶特异位点进行预测,本研究用氨基酸索引数据库(Amino Acid Index,AAIndex)中的531个氨基酸物理化学性质参数直接表征肽样本的结构,通过二层特征筛选,最终将4248个表征参数降为57个表征参数。分别采取四种核函数进行HIV-1蛋白酶特异位点的支持向量机(SVM)建模,并通过10折交叉验证及外部测试集方法来验证建模的准确性。结果表明选取NormalizePolyKernel核函数进行SVM建模效果优于其他核函数(PolyKernel、PUK、RBFKernel),所建立的模型对于训练集的10组交叉验证预测准确率达到93.947%,对于外部测试集的预测正确率达到93.684%。The HIV - 1 protease inhibitor plays an important role in the therapy of AIDS. The research on HIV - 1 protease' s cleavage site will be useful to found new therapeutic targets. To predict the HIV - 1 protease specific site, we apply Amino Acid Index(AAIndex) ' s 531 amino acid' s parameter of chemical and physical to present the structure of peptide sample. And based on two stage feature selection method , 57 features are selected from origi- nal 4248 features. By using four kernel function of support vector machine ( SVM), HIV - 1 protease specific site' s model is built. Our research showed the modeling by the kernel function of NormalizePolyKernel had the higher prediction rate than other three kernel function. As a result, the accuracy rate of prediction achieves 93. 947 % and 93. 684% for corss validation test and an independent set test, respectively.

关 键 词:变量筛选 支持向量机 10折交叉验证 预测模型 HIV-1蛋白酶 

分 类 号:O641[理学—物理化学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象