利用word2vec对中文词进行聚类的研究  被引量:30

Research on Chinese word Clustering with Word2vec

在线阅读下载全文

作  者:郑文超[1] 徐鹏[1] 

机构地区:[1]北京邮电大学网络技术研究院,北京100876

出  处:《软件》2013年第12期160-162,共3页Software

摘  要:文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在前人研究成果的基础上,探索了一种新的中文聚类方法。本文先提出了一种中文分词算法,用来将中文文本分割成独立的词语。再对处理后的语料使用Word2Vec工具集,应用深度神经网络算法,转化为对应的词向量。最后,将词向量之间的余弦距离定义为词之间的相似度,通过使用K-means聚类算法将获取的词向量进行聚类,最终可以返回语料库中同输入词语语意最接近的词。本文从网络上抓取了2012年的网络新闻数据,应用上述方法进行了实验,取得了不错的实验效果。Text clustering plays an important role in data mining and machine learning. After years of development, clustering technology has produced a series of theorey. This paper explored a new method of Chinese clustering. By putting forword a new method to Chinese word segments, this paper can split Chinese text into word segments. With Word2Vec toolset, we can transfrom word segments into vectors. To deifne the cosine distance between two vectors, we can apply K-means algorithm on the vectors to cluster words. In this paper, we downloaded network news text on the Internet, and applied the methods above, which shows good result.

关 键 词:数据挖掘 聚类 分词 词向量 神经网络 

分 类 号:TP39[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象