检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:高巍 孙盼盼 李大舟 GAO Wei;SUN Pan-pan;LI Da-zhou(School of Computer Science and Technology,Shenyang University of Chemical Technology,Shenyang 110142,China)
机构地区:[1]沈阳化工大学计算机科学与技术学院
出 处:《计算机工程与设计》2019年第11期3180-3185,3191,共7页Computer Engineering and Design
基 金:辽宁省教育厅科学技术研究基金项目(L2016011);辽宁省教育厅科学研究基金项目(LQ2017008);辽宁省博士启动基金项目(201601196)
摘 要:在Twitter情感分析中首先要对数据预处理去除噪声,为了解文本预处理方法中去除停用词对Twitter情感分析分类性能的影响,使用4种特征模型和5种分类器对3个数据集保留和去除停用词分别进行分析,为自然语言处理的研究者提供在常用算法下对Twitter情感分类分析时是否去除停用词及特征数量选择的参考依据。实验结果表明,对Twitter情感分类,去除停用词降低了文本噪声,但多数情况下不会提高分类器的性能,且提取特征时适当的特征数量有助于加快分类过程。The first step in the emotional analysis of Twitter is to remove noise from the data preprocessing.To understand the effects of stop words in the text preprocessing method on the classification performance of Twitter sentiment analysis,four feature models and five classifiers were used to analyze in three datasets and a reference was provided for the researchers of natural language processing about stop words and the number of features under common algorithms.Experimental results show that the removal of stop words reduces the text noise,but in most cases it does not improve the performance of the classifier,and the appropriate number of features is helpful to speed up the classification process.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.90