融合信息量差异和聚类精炼的多Motif识别  

Multi-motif Identification Using Differential Information Content and Cluster Refine

在线阅读下载全文

作  者:王迎国 钟诚[1] 

机构地区:[1]广西大学计算机与电子信息学院,广西高校并行分布式计算技术重点实验室,南宁530004

出  处:《小型微型计算机系统》2017年第9期1971-1976,共6页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(61462005)资助;广西自然科学基金项目(2014GXNSFAA118396)资助

摘  要:采用信息量差异扩展采样Markov链的排斥力函数,使排斥力的值增加,推动两条相互靠近的采样Markov链向不同的区域探索,使motif位置概率矩阵元素值得到更新,避免motif识别算法过早陷入局部最优解,以发现更多的候选motif;利用信息量对motif聚类精炼,以减少假阳性motif对算法结果的影响,提高识别结果的精度和召回率.模拟启动子序列和真实数据集ENCODE TF Chip-seq上的实验结果表明,与同类的多motif识别算法相比,本文算法获得更高的召回率和精度、识别出保守性高的motif和匹配更多真实的motif.The repulsive force function of sampling Markov chain is extended by differential information content to increase the value of repulsive force,the two sampling Markov chains close to each other are pushed to search different regions,the values of elements in probability matrix of motif positions are updated,and an improved multi-motif discovery algorithm is proposed.This algorithm can avoid to the local optimal solution and find more candidate motifs.Furthermore,the obtained motif clusters of the algorithm are refined by the information content to reduce the impact of false positive motifs on the accuracy of the results,and the precision and recall rate of identification results are improved.The experimental results on synthetic promoter sequences and ENCODE TF Chip-seq real datasets show that,compared with existing multi-motif finding algorithms,the proposed algorithm can obtain high recall rate and precision,and recognize highly conservative motifs and match more real motifs.

关 键 词:生物序列 多motif识别 排斥力 聚类精炼 GIBBS采样 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象