Twitter情感分析中停用词处理  被引量:3

Processing stop words in Twitter sentiment analysis

在线阅读下载全文

作  者:高巍 孙盼盼 李大舟 GAO Wei;SUN Pan-pan;LI Da-zhou(School of Computer Science and Technology,Shenyang University of Chemical Technology,Shenyang 110142,China)

机构地区:[1]沈阳化工大学计算机科学与技术学院

出  处:《计算机工程与设计》2019年第11期3180-3185,3191,共7页Computer Engineering and Design

基  金:辽宁省教育厅科学技术研究基金项目(L2016011);辽宁省教育厅科学研究基金项目(LQ2017008);辽宁省博士启动基金项目(201601196)

摘  要:在Twitter情感分析中首先要对数据预处理去除噪声,为了解文本预处理方法中去除停用词对Twitter情感分析分类性能的影响,使用4种特征模型和5种分类器对3个数据集保留和去除停用词分别进行分析,为自然语言处理的研究者提供在常用算法下对Twitter情感分类分析时是否去除停用词及特征数量选择的参考依据。实验结果表明,对Twitter情感分类,去除停用词降低了文本噪声,但多数情况下不会提高分类器的性能,且提取特征时适当的特征数量有助于加快分类过程。The first step in the emotional analysis of Twitter is to remove noise from the data preprocessing.To understand the effects of stop words in the text preprocessing method on the classification performance of Twitter sentiment analysis,four feature models and five classifiers were used to analyze in three datasets and a reference was provided for the researchers of natural language processing about stop words and the number of features under common algorithms.Experimental results show that the removal of stop words reduces the text noise,but in most cases it does not improve the performance of the classifier,and the appropriate number of features is helpful to speed up the classification process.

关 键 词:情感分析 预处理 停用词 特征数量 文本分类 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象