面向中文网络评论情感分类的集成学习框架  被引量:7

An Ensemble Learning Framework for Sentiment Classification of Chinese Online Reviews

在线阅读下载全文

作  者:黄佳锋 薛云[1,2] 卢昕 刘志煌 吴威 黄英仁 李万理 陈鑫 HUANG Jiafeng;XUE Yun;LU Xin;LIU Zhihuang;WU Wei;HUANG Yingren;LI Wanli;CHEN Xin(School of Physics and Telecommunication Engineering,South China Normal University,Guangzhou,Guangdong 510006,China;Guangdong Provincial Engineering Technology Research Center for Data Science,Guangzhou,Guangdong 510006,China;Industrial Center,Shenzhen PolyTechnic,Shenzhen,Guangdong 518055,China)

机构地区:[1]华南师范大学物理与电信工程学院,广东广州510006 [2]广东省数据科学工程技术研究中心,广东广州510006 [3]深圳职业技术学院工业中心,广东深圳518055

出  处:《中文信息学报》2018年第9期113-122,共10页Journal of Chinese Information Processing

基  金:全国统计科学研究项目(2016LY98);广东省科技计划项目(2016A010101020;2016A010101021;2016A010101022);深圳市科创委基础研究项目(JCYJ20160527172144272);广东省数据科学工程技术研究中心课题(2016KF09;2016KFl0);广东科学技术职业学院科研项目(XJSC2016206)

摘  要:该文针对中文网络评论情感分类任务,提出了一种集成学习框架。首先针对中文网络评论复杂多样的特点,采用词性组合模式、频繁词序列模式和保序子矩阵模式作为输入特征。然后采用基于信息增益的随机子空间算法解决文本特征繁多的问题,同时提高基分类器的分类性能。最后基于产品属性构造基分类器算法综合评论文本中每个属性的情感信息,进而判别评论的句子级情感倾向。实验结果表明了该框架在中文网络评论情感分类任务上的有效性,特别是在Logistic Regression分类算法上准确率达到90.3%。We propose an ensemble learning framework for sentiment classification of Chinese online reviews.Firstly,according to the complicated characteristics of Chinese online reviews,we combine the POS pattern,the frequent word sequence pattern and the OPSM pattern as the input features.Secondly,to deal with the massive features in the reviews,we use the random subspace based on information gain algorithm,which can enhance the base classifiers simultaneously.Finally,we design base classifiers for each product aspect so as to combine the sentiment information of each aspect in a review.The experimental results show that our framework leads to significant improvement in sentiment classification of Chinese online reviews,with an accuracy of 90.3% on Logistic Regression.

关 键 词:网络评论 情感分类 集成学习 特征提取 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象