检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李莉 黄伟 赵佳旭 LI Li;HUANG Wei;ZHAO Jiaxu(Department of Information Engineering,Fuzhou Polytechnic,Fuzhou,China,350100)
机构地区:[1]福州职业技术学院信息工程学院,福州350100
出 处:《福建电脑》2024年第7期58-62,共5页Journal of Fujian Computer
基 金:福州职业技术学院校级科研项目(No.FZYKJJJYB202304)资助。
摘 要:基于K-mer的生物序列聚类算法是一种基于序列特征的聚类方法。纯粹的K-mer聚类算法运行速度较慢。为解决这个问题,本文提出了对生物序列聚类的优化KMER模型。首先以生物序列的K-mer频率为基础,将每个字符(A、C、G、T)分配一个两位的二进制数,通过位操作来构造K-mer的索引,然后使用Python的joblib库并行化getKmer函数的应用过程,最后通过K-means算法进行序列聚类。实验的结果证明,在保证准确性的前提下,优化后的KMER模型对生物序列聚类的时间减少了一半以上。The K-mer based biological sequence clustering algorithm is a clustering method based on sequence features,and pure K-mer clustering algorithms run slowly.To address this issue,this article proposes an optimized KMER model for clustering biological sequences.Firstly,based on the K-mer frequency of biological sequences,each character(A,C,G,T)is assigned a two bit binary number,and the K-mer index is constructed through bit operations.Then,the application process of the getKmer function is parallelized using Python's joblib library.Finally,sequence clustering is performed using the K-means algorithm.The experimental results demonstrate that,while ensuring accuracy,the optimized KMER model reduces the clustering time of biological sequences by more than half.
分 类 号:TP312[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49