基于主观倾向值和EasyEnsemble算法的虚假评论识别方法  被引量:1

Detection of spam reviews based on subjectivity and EasyEnsemble algorithm

在线阅读下载全文

作  者:陶朝杰 杨进[1] Tao Chaojie;Yang Jin(College of Science,University of Shanghai for Science&Technology,Shanghai 200093,China)

机构地区:[1]上海理工大学理学院,上海200093

出  处:《计算机应用研究》2021年第5期1403-1408,共6页Application Research of Computers

基  金:国家教育部人文社科规划基金资助项目(16YJA630037);上海市一流学科建设项目(S1201YLXK)。

摘  要:为了有效识别在线虚假评论,提出一种基于XGBoost-EasyEnsemble算法的虚假评论识别方法。首先,根据虚假评论的特点和提出的主观倾向值计算方法,建立多维特征模型;其次,针对评论数据中的类别不平衡问题,EasyEnsemble算法借助集成策略弥补欠采样的缺陷,充分利用样本信息;最后,选择“好而不同”的XGBoost模型作为基分类器训练最终分类器。基于Yelp网站上的评论数据,以AUC作为评价指标,与支持向量机、GBDT、神经网络等热门机器学习算法进行对比,验证了该方法的有效性。In order to detect online spam reviews effectively,this paper proposed a method to detect spam reviews based on XGBoost-EasyEnsemble algorithm.Firstly,according to the characteristics of spam reviews,this paper proposed a calculation method of subjectivity and built a multi-dimensional feature model.Secondly,in view of the class-imbalance problem,EasyEnsemble algorithm used integration strategy to make up for the defects of the under-sampling method,and fully utilized sample information.Finally,it chose XGBoost model with higher diversity and accuracy as base classifier to train.In terms of AUC,comparative experiments on reviews from Yelp.com was conducted with five hot machine learning algorithms,and the results verify the validity of the method.

关 键 词:虚假评论 类别不平衡 主观倾向值 EasyEnsemble XGBoost 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象