检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:孙晶 SUN Jing(School of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan Shanxi 030000)
机构地区:[1]太原科技大学计算机科学与技术学院,山西太原030000
出 处:《软件》2024年第9期49-51,共3页Software
摘 要:在实际问题中,使用K-means算法进行聚类的数据点往往有很多特征值,这些特征值大多以文本形式存在,因此如何将大量特征值形成的稀疏数据集进行有效编码,再进行数据点聚类是一个重要的研究方向。本文提出了一种优化思路:将贝叶斯优化应用于Word2Vec和K-means聚类算法的参数调优过程,通过多次迭代寻找最优参数解。通过计算分析,并与基于独热编码的Jaccard相似度计算方法实现的聚类算法结果进行比较,证明本文提出的优化改进思路聚类效果更好,准确率更高。In practical problems,the data points clustered using K-means algorithm often have a lot of eigenvalues,which mostly exist in the form of text,so how to effectively encode the sparse data set formed by a large number of eigenvalues before clustering the data points is an important research direction.This paper proposes an optimization idea:Bayesian optimization is applied to the parameter tuning process of Word2Vec and K-means clustering algorithms,and the optimal parameter solution is found through many iterations.Through computational analysis and comparison with the results of the clustering algorithm completed by calculating the distance between data points based on the Jaccard similarity of the unique thermal encoding,the experimental results show that the optimization and improvement ideas proposed in this paper have better clustering effect and higher accuracy.
关 键 词:K-MEANS算法 贝叶斯优化 Word2Vec模型 独热编码 Jaccard相似度
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.112