分类数据的Word2Vec与Jaccard相似度聚类方法的比较分析  

Comparative Analysis of Word2Vec and Jaccard Similarity Clustering Methods for Categorical Data

在线阅读下载全文

作  者:孙晶 SUN Jing(School of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan Shanxi 030000)

机构地区:[1]太原科技大学计算机科学与技术学院,山西太原030000

出  处:《软件》2024年第9期49-51,共3页Software

摘  要:在实际问题中,使用K-means算法进行聚类的数据点往往有很多特征值,这些特征值大多以文本形式存在,因此如何将大量特征值形成的稀疏数据集进行有效编码,再进行数据点聚类是一个重要的研究方向。本文提出了一种优化思路:将贝叶斯优化应用于Word2Vec和K-means聚类算法的参数调优过程,通过多次迭代寻找最优参数解。通过计算分析,并与基于独热编码的Jaccard相似度计算方法实现的聚类算法结果进行比较,证明本文提出的优化改进思路聚类效果更好,准确率更高。In practical problems,the data points clustered using K-means algorithm often have a lot of eigenvalues,which mostly exist in the form of text,so how to effectively encode the sparse data set formed by a large number of eigenvalues before clustering the data points is an important research direction.This paper proposes an optimization idea:Bayesian optimization is applied to the parameter tuning process of Word2Vec and K-means clustering algorithms,and the optimal parameter solution is found through many iterations.Through computational analysis and comparison with the results of the clustering algorithm completed by calculating the distance between data points based on the Jaccard similarity of the unique thermal encoding,the experimental results show that the optimization and improvement ideas proposed in this paper have better clustering effect and higher accuracy.

关 键 词:K-MEANS算法 贝叶斯优化 Word2Vec模型 独热编码 Jaccard相似度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象