基于深度优先判定聚类的DNA序列模体发现  

DNA Sequences Motif Discovery Based on DFD Clustering

在线阅读下载全文

作  者:何红洲[1,2] 周明天[1] 

机构地区:[1]电子科技大学计算机科学与工程学院,成都611731 [2]绵阳师范学院数学与计算机科学学院,四川绵阳621000

出  处:《生物物理学报》2013年第5期384-394,共11页Acta Biophysica Sinica

基  金:四川省教育厅自然科学研究项目(12ZB070)~~

摘  要:提出一种数据挖掘方法 MMHC来求解DNA序列模体。首先使用基于种子的错配聚类形成候选模体类,然后使用基于相对熵及聚类复杂度的深度优先判定(depth first determination,DFD)算法识别真正的模体类,最后使用保守区扫描法(conservation region scanning,CRS)及最大后验概率保值过滤法(MAP value-preservation filtering,MVPF)优化模体类。在两类DNA序列数据集上,将MMHC与三种经典的模体发现方法 MEME、AlignACE和SOMBRERO进行了对比试验。结果表明:对于大多数数据集,MMHC方法无论是在发现模体的可靠性及准确性方面,还是在反映背景种类的聚类结构方面,都明显优于三种经典的模体发现方法。A data mining method MMHC was given to solve DNA sequences motifs.The seed-based mismatch clustering was used to form the candidate motif clusters.Then the depth first determination(DFD) algorithm based on relative entropy and cluster complexity was proposed to identify the true motif clusters.Finally,the conservation region scanning(CRS) and MAP value-preservation filtering(MVPF) were given to optimize motif clusters.The experiment was conducted by testing MMHC method and comparing its performance with other three classic motif discovery methods MEME,AlignACE and SOMBRERO on two classes of DNA sequences datasets.Experimental results show the superiority of MMHC method over the three classic motif discovery methods in reliability,precision and the reflection of the cluster structure of the background species for most of the DNA sequences datasets.

关 键 词:模体发现 聚类分析 深度优先判定 保守区扫描 

分 类 号:Q523[生物学—生物化学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象