检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:陶朝杰 杨进[1] Tao Chaojie;Yang Jin(College of Science,University of Shanghai for Science&Technology,Shanghai 200093,China)
出 处:《计算机应用研究》2021年第5期1403-1408,共6页Application Research of Computers
基 金:国家教育部人文社科规划基金资助项目(16YJA630037);上海市一流学科建设项目(S1201YLXK)。
摘 要:为了有效识别在线虚假评论,提出一种基于XGBoost-EasyEnsemble算法的虚假评论识别方法。首先,根据虚假评论的特点和提出的主观倾向值计算方法,建立多维特征模型;其次,针对评论数据中的类别不平衡问题,EasyEnsemble算法借助集成策略弥补欠采样的缺陷,充分利用样本信息;最后,选择“好而不同”的XGBoost模型作为基分类器训练最终分类器。基于Yelp网站上的评论数据,以AUC作为评价指标,与支持向量机、GBDT、神经网络等热门机器学习算法进行对比,验证了该方法的有效性。In order to detect online spam reviews effectively,this paper proposed a method to detect spam reviews based on XGBoost-EasyEnsemble algorithm.Firstly,according to the characteristics of spam reviews,this paper proposed a calculation method of subjectivity and built a multi-dimensional feature model.Secondly,in view of the class-imbalance problem,EasyEnsemble algorithm used integration strategy to make up for the defects of the under-sampling method,and fully utilized sample information.Finally,it chose XGBoost model with higher diversity and accuracy as base classifier to train.In terms of AUC,comparative experiments on reviews from Yelp.com was conducted with five hot machine learning algorithms,and the results verify the validity of the method.
关 键 词:虚假评论 类别不平衡 主观倾向值 EasyEnsemble XGBoost
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49