基于Word2Vec的一种文档向量表示被引量：146

Document Vector Representation Based on Word2Vec

出　　处：《计算机科学》2016年第6期214-217,269,共5页Computer Science

摘　　要：在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF算法计算每篇文档中词的权重,并结合word2vec词向量生成文档向量,最后将其应用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。In text classification issues, it is difficult to express a document efficiently by the word vector of word2vec. At present, doc2vec built on the combination of word2vec and clustering algorithm can express the information of document very well. However, this method rarely considers a single word＇s influence for the entire document. To solve this problem, in this paper, TF-IDF algorithm was used to calculate the right weight of words in documents, and word2vec was combined to generate document vectors, which were used for Chinese text classification. Experiments on the Sogou Chi- nese corpus laboratory demonstrate the efficiency of this newly proposed algorithm.

关键词：TF-IDF word2vec doc2vec 文本分类

分类号：TP181[自动化与计算机技术—控制理论与控制工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Word2Vec的一种文档向量表示被引量：146

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Word2Vec的一种文档向量表示 被引量：146

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于Word2Vec的一种文档向量表示被引量：146