基于词向量和多特征语义距离的文本聚类算法被引量：8

Text Clustering Algorithm Based on Word Vector and Multi-feature Semantic Distance

作　　者：张弛张贯虹[1] ZHANG Chi;ZHANG Guanhong(Department of Computer Science and Technology, Hefei University, Hefei 230601, China)

机构地区：[1]合肥学院计算机科学与技术系

出　　处：《重庆科技学院学报（自然科学版）》2019年第3期69-72,77,共5页Journal of Chongqing University of Science and Technology：Natural Sciences Edition

基　　金：安徽省自然科学基金青年项目“面向金融信息领域的文本情感分析研究”(051308085QF115);高校优秀青年人才支持计划重点项目“基于深度神经网络学习的融合模型词对齐研究”(GXYQZD2016275);合肥学院重点教学研究项目“基于SSH框架的智能实验报告管理系统设计与实现研究”(2018HFJYXM08)

摘　　要：针对传统文本聚类算法中存在语义相似度计算向量维度高、忽视特征词词频、位置、词距和语义缺失等问题,提出了一种基于词向量和多特征语义距离的文本聚类算法(M-W2-KS)。首先使用Word2Vec训练语料库中的所有特征词,以向量形式进行表征;然后综合考虑特征词的词频、位置、词距信息以及特征词间的欧式距离,计算文本间的语义相似度,并将其应用到K-means算法中,实现文本的聚类。实验结果表明,运用M-W2-KS算法,可以有效提升聚类效果,使聚类结果更加准确。The traditional text clustering algorithm ignores high dimension of semantic similarity calculation vectors, word frequency, location, word distance and semantic missing of feature words. Therefore, a text clustering algorithm based on word vector and multi-feature semantic distance (M-W2-KS) is proposed. Firstly, all feature words in word2Vec training corpus are represented as vectors, and then the semantic similarity between texts is calculated by combining the frequency, location, distance and Euclidean distance of feature words. Finally, it is applied to K-means algorithm to realize text clustering. The experiment results show that M-W2-KS algorithm can effectively enhance clustering results, and make clustering results more accurate.

关键词：文本聚类词向量特征向量 Word2Vec K-MEANS

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于词向量和多特征语义距离的文本聚类算法被引量：8

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于词向量和多特征语义距离的文本聚类算法 被引量：8

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于词向量和多特征语义距离的文本聚类算法被引量：8