优化K-MER模型对生物序列进行聚类

Optimizing the K-mer Model for Clustering Biological Sequences

作　　者：李莉黄伟赵佳旭 LI Li;HUANG Wei;ZHAO Jiaxu(Department of Information Engineering,Fuzhou Polytechnic,Fuzhou,China,350100)

机构地区：[1]福州职业技术学院信息工程学院,福州350100

出　　处：《福建电脑》2024年第7期58-62,共5页Journal of Fujian Computer

基　　金：福州职业技术学院校级科研项目(No.FZYKJJJYB202304)资助。

摘　　要：基于K-mer的生物序列聚类算法是一种基于序列特征的聚类方法。纯粹的K-mer聚类算法运行速度较慢。为解决这个问题,本文提出了对生物序列聚类的优化KMER模型。首先以生物序列的K-mer频率为基础,将每个字符(A、C、G、T)分配一个两位的二进制数,通过位操作来构造K-mer的索引,然后使用Python的joblib库并行化getKmer函数的应用过程,最后通过K-means算法进行序列聚类。实验的结果证明,在保证准确性的前提下,优化后的KMER模型对生物序列聚类的时间减少了一半以上。The K-mer based biological sequence clustering algorithm is a clustering method based on sequence features,and pure K-mer clustering algorithms run slowly.To address this issue,this article proposes an optimized KMER model for clustering biological sequences.Firstly,based on the K-mer frequency of biological sequences,each character(A,C,G,T)is assigned a two bit binary number,and the K-mer index is constructed through bit operations.Then,the application process of the getKmer function is parallelized using Python's joblib library.Finally,sequence clustering is performed using the K-means algorithm.The experimental results demonstrate that,while ensuring accuracy,the optimized KMER model reduces the clustering time of biological sequences by more than half.

关键词：生物序列聚类算法位操作并行化

分类号：TP312[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

优化K-MER模型对生物序列进行聚类

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

优化K-MER模型对生物序列进行聚类

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索