基于Word2Vec的一种文档向量表示  被引量:146

Document Vector Representation Based on Word2Vec

在线阅读下载全文

作  者:唐明[1] 朱磊[1] 邹显春[1] 

机构地区:[1]西南大学计算机与信息科学学院,重庆400715

出  处:《计算机科学》2016年第6期214-217,269,共5页Computer Science

摘  要:在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF算法计算每篇文档中词的权重,并结合word2vec词向量生成文档向量,最后将其应用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。In text classification issues, it is difficult to express a document efficiently by the word vector of word2vec. At present, doc2vec built on the combination of word2vec and clustering algorithm can express the information of document very well. However, this method rarely considers a single word's influence for the entire document. To solve this problem, in this paper, TF-IDF algorithm was used to calculate the right weight of words in documents, and word2vec was combined to generate document vectors, which were used for Chinese text classification. Experiments on the Sogou Chi- nese corpus laboratory demonstrate the efficiency of this newly proposed algorithm.

关 键 词:TF-IDF word2vec doc2vec 文本分类 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象