中文博客多方面话题情感分析研究  被引量:17

Multi-aspect Topic Sentiment Analysis of Chinese Blog

在线阅读下载全文

作  者:傅向华[1] 刘国[1] 郭岩岩[1] 郭武彪[1] 

机构地区:[1]深圳大学计算机与软件学院,广东深圳518060

出  处:《中文信息学报》2013年第1期47-55,共9页Journal of Chinese Information Processing

基  金:国家自然科学基金资助项目(60903114;61003271;61001185);广东省自然科学基金资助项目(7301329);深圳市科技计划资助项目(JC201005280463A)

摘  要:博客是Web环境中个人表达观点和情感的一种重要载体,一般涉及较宽泛的话题,蕴含丰富的舆情信息。现有针对有关社会事件的用户产生内容进行情感分析的研究多数以篇章级为处理粒度,尚不能满足博客文本深度情感分析的需求。该文提出一种基于LDA话题模型与Hownet词典的中文博客多方面话题情感分析方法。该方法首先利用数据语料训练LDA话题模型,然后以滑动窗口为基本处理单位,利用训练好的LDA模型对博客文本进行话题识别与划分;在此基础上,基于Hownet词典对划分后的话题段落进行情感倾向计算。该方法有助于同时识别博客文本所涉及的多方面子话题及每个子话题上的情感倾向。实验结果表明,该方法不仅能获得较好的话题划分结果,也有助于改善情感分析的准确率。Weblog is an important media for people to express their personal opinions and sentiment, which generally involve several topics or implied public opinions. The existing sentiment analysis researches on these user generation content are mostly in document level instead of fine granalarities. This paper proposes a novel method based on LDA topic model and HowNet lexicon to determine the sentiment orientation of blogs with multi-aspect topics. The new method utilizes data corpus to train the LDA topic model at first. Then it identifies and segments topics with the trained topic model, which taking a slide window as the basic processing unit. After that, the topics of paragraphs can be identified. And then the method conducts the sentiment analysis on topic paragraphs with HowNet lexicon. The new method can help to simultaneous identify multi-aspect topics and the sentiment orientation of these topics. The experiment results show that this approach can not only obtain a good topic partitioning results, but also help to improve sentiment analysis accuracy.

关 键 词:多方面情感分析 博客情感分析 LDA模型 HowNet词典 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象