基于情感词向量的微博情感分类  被引量:21

A Sentiment Classification Method Based on Sentiment-Specific Word Embedding

在线阅读下载全文

作  者:杜慧[1,2] 徐学可[1] 伍大勇[1] 刘悦[1] 余智华[1] 程学旗[1] 

机构地区:[1]中国科学院计算技术研究所,中国科学院网络数据科学与技术重点实验室,北京100190 [2]中国科学院大学,北京100190

出  处:《中文信息学报》2017年第3期170-176,共7页Journal of Chinese Information Processing

基  金:国家973计划(2014CB340406,2013CB329602);国家863计划(2014AA015204);国家自然科学基金(61232010)

摘  要:该文提出了一种基于情感词向量的情感分类方法。词向量采用连续实数域上的固定维数向量来表示词汇,能够表达词汇丰富的语义信息。词向量的学习方法,如word2vec,能从大规模语料中通过上下文信息挖掘出潜藏的词语间语义关联。本文在从语料中学习得到的蕴含语义信息的词向量基础上,对其进行情感调整,得到同时考虑语义和情感倾向的词向量。对于一篇输入文本,基于情感词向量建立文本的特征表示,采用机器学习的方法对文本进行情感分类。该方法与基于词、N-gram及原始word2vec词向量构建文本表示的方法相比,情感分类准确率更高、性能和稳定性更好。We present a method for sentiment classification based on sentiment-specific word embedding (SSWE). Word embedding is the distributed vector representation of a word with fixed length in real topological space. Algorithms for learning word embedding, like word2vec, obtain this representation from large un-annotated corpus, without considering sentiment information. We make sentiment improvement for the initial word embedding and get the sentiment-specific word embedding that contains both syntactic and sentiment information. Then text representations are built based on sentiment-specific word embeddings. Sentiment polarities of texls are obtained through machine learning approaches. Experiments show that the presented algorithm performs better than sentiment classification method based on texts modeling by word, N-gram and word embeddings from word2vec.

关 键 词:情感分析 情感分类 词向量 机器学习 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象