检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]广西大学计算机与电子信息学院,广西高校并行分布式计算技术重点实验室,南宁530004
出 处:《小型微型计算机系统》2017年第9期1971-1976,共6页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(61462005)资助;广西自然科学基金项目(2014GXNSFAA118396)资助
摘 要:采用信息量差异扩展采样Markov链的排斥力函数,使排斥力的值增加,推动两条相互靠近的采样Markov链向不同的区域探索,使motif位置概率矩阵元素值得到更新,避免motif识别算法过早陷入局部最优解,以发现更多的候选motif;利用信息量对motif聚类精炼,以减少假阳性motif对算法结果的影响,提高识别结果的精度和召回率.模拟启动子序列和真实数据集ENCODE TF Chip-seq上的实验结果表明,与同类的多motif识别算法相比,本文算法获得更高的召回率和精度、识别出保守性高的motif和匹配更多真实的motif.The repulsive force function of sampling Markov chain is extended by differential information content to increase the value of repulsive force,the two sampling Markov chains close to each other are pushed to search different regions,the values of elements in probability matrix of motif positions are updated,and an improved multi-motif discovery algorithm is proposed.This algorithm can avoid to the local optimal solution and find more candidate motifs.Furthermore,the obtained motif clusters of the algorithm are refined by the information content to reduce the impact of false positive motifs on the accuracy of the results,and the precision and recall rate of identification results are improved.The experimental results on synthetic promoter sequences and ENCODE TF Chip-seq real datasets show that,compared with existing multi-motif finding algorithms,the proposed algorithm can obtain high recall rate and precision,and recognize highly conservative motifs and match more real motifs.
关 键 词:生物序列 多motif识别 排斥力 聚类精炼 GIBBS采样
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.135.246.88