基于文本和社交语境的微博数据情感分类  被引量:7

Microblog sentiment classification using both text and social context

在线阅读下载全文

作  者:吴方照 王丙坤[1] 黄永峰[1] 

机构地区:[1]清华大学电子工程系,北京100084

出  处:《清华大学学报(自然科学版)》2014年第10期1373-1376,1383,共5页Journal of Tsinghua University(Science and Technology)

基  金:国家"八六三"高技术项目(2012AA011004);清华大学自主科研计划项目(20111081023)

摘  要:微博数据的情感分析具有重要的应用价值和研究价值,是网络文本挖掘领域的研究热点。微博消息非常短而且稀疏,同时包含大量的不规则词语,噪声很强,给传统的情感分析方法带来了很大的挑战。受社会科学的相关理论的启发,该文尝试利用微博消息的社交语境来帮助解决情感分析所面临的稀疏性强和噪声大的困难。由于文本向量的维度很高,而具有情感倾向的词只占其中较少的一部分,因此将Lasso方法加进LR(logistic regression)模型中以提高模型的鲁棒性。在真实的英文Twitter数据集上的实验结果表明,加入社交语境和模型的稀疏约束能够有效提高微博数据情感分类的准确率。Microblog sentiment classification is of great importance in both application and research fields.However,microblogging messages are usually very short and noisy,which brings a challenge to traditional sentiment classification methods.A sentiment classification method was developed to incorporate social contexts to alleviate the problem of sparseness and noise.Based on the idea of sparse learning,the Lasso method was incorporated in the logistic regression(LR)model to improve the model robustness.Experiments on real-world Twitter datasets demonstrate that incorporating the social context and the model sparseness constraint can improve sentiment classification performance on microblogs.

关 键 词:情感分类 微博 凸优化 L1正则 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象