基于隐马尔可夫模型的二次k-均值基因序列聚类算法  

A Double k-Mean Clustering Algorithm for Sequential Gene Data Based on the Hidden Markov Model

在线阅读下载全文

作  者:吴君浩[1] 骆嘉伟[1] 王艳[1] 杨涛[1] 杨旭[2] 

机构地区:[1]湖南大学计算机与通信学院,湖南长沙410082 [2]湖南师范大学生命科学学院,湖南长沙410081

出  处:《计算机工程与科学》2007年第3期54-56,共3页Computer Engineering & Science

基  金:湖南省自然科学基金资助项目(03jjy3095)

摘  要:本文提出了一种基于隐马尔可夫模型的二次k-均值聚类算法并实现了对基因序列数据的建模与聚类。算法首先引入了同源基因序列核苷酸比率趋向于一致的生物学特征来对基因序列数据进行初次k-均值聚类,然后利用第一次聚类结果训练出表征序列特征的隐马尔可夫模型,最后采用基于模型的k-均值方法再次聚类。实验结果表明,该算法是可行的,并且具有较好的聚类质量。A double k-mean clustering algorithm for modeling and clustering the gene sequence data is proposed by using the hidden Markov models(HMMs).First,the biological characteristics of four nucleotides ratio of homologous gene sequences is proposed to initial k-mean clustering on gene sequence data,and second,the first clustering results are utilized to train some HMMs which can denote sequence identities well.Finally,mode-based k-mean approach is adapted to clustering again.The experimental results show that the new algorithm is feasible and has comparatively better clustering quality.

关 键 词:隐马尔可夫模型 基因序列 建模 K-均值聚类 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象