基于位置信息熵的局部敏感哈希聚类方法  被引量:2

LOCAL SENSITIVE HASH CLUSTERING METHOD BASED ON LOCATION INFORMATION ENTROPY

在线阅读下载全文

作  者:徐彭娜 魏静 林劼 江育娥 Xu Pengna;Wei Jing;Lin Jie;Jiang Yu-e(College of Mathematics and Informatics,Fujian Normal University,Fuzhou 350108,Fujian,China)

机构地区:[1]福建师范大学数学与信息学院,福建福州350108

出  处:《计算机应用与软件》2018年第3期230-235,252,共7页Computer Applications and Software

基  金:国家自然科学基金项目(61472082);福建省自然科学基金项目(2014J01220)

摘  要:在分析海量生物序列时,现有的聚类算法存在着时间效率不高、准确率较低,以及聚类结果的生物意义不足等问题。针对这些问题,提出一种基于位置信息熵的局部敏感哈希聚类方法。通过对生物序列使用K词计算其标准熵,将标准熵作为局部敏感哈希函数簇的特征向量,计算特征矩阵并应用于生物序列聚类。实验结果表明,该算法能够有效地提高时间效率和聚类的准确率。随着数据集的增大,也同样取得很好的效果,实验结果更具有生物解释性和实际意义。In the analysis of massive biological sequences,the existing clustering algorithms have the problems of low time efficiency,low accuracy and insufficient biological significance of the clustering results.To solve these problems,a local sensitive hash clustering method based on location information entropy was proposed.By using K words to calculate the standard entropy of a biological sequence,the standard entropy was used as the eigenvector of the local sensitive hash function cluster,and the feature matrix was calculated and applied to the biological sequence clustering.Experimental results showed that the proposed algorithm effectively improved the efficiency of time and the accuracy of clustering.As the data set increased,the algorithm also achieved good results.The experimental results were more biologically interpretative and practical.

关 键 词:位置信息 标准熵 局部敏感哈希 生物序列聚类 编辑距离 

分 类 号:TP3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象