检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:宋海霞[1,2] 严馨[1,2] 余正涛 石林宾[1,2] 郭剑毅
机构地区:[1]昆明理工大学信息工程与自动化学院 [2]云南省计算机技术应用重点实验室,云南昆明650500
出 处:《昆明理工大学学报(自然科学版)》2015年第5期59-65,共7页Journal of Kunming University of Science and Technology(Natural Science)
基 金:国家自然科学基金项目(61175068;61462055);云南省自然科学基金重点项目(2013FA030);云南省软件工程重点实验室开放基金(2011SE14);教育部回国人员基金;云南省教育厅基金重大专项资助
摘 要:基于有监督的虚假评论检测方法受限于标注语料的规模,为了更好地利用未标注评论数据来提高分类器的正确率和泛化能力,本文提出一种基于半监督主动学习的虚假评论检测方法.首先,定义并提取评论内容特征以及评论者行为特征,结合这两类特征来对虚假评论进行检测.然后,采用基于熵的主动学习算法选择对学习最有帮助的评论样本,获得其类别标注,将其合并到基于Tri-training的半监督学习算法的训练集中,利用大量未标注评论数据进行学习,提升分类器性能.最后,在领域评论数据集上进行实验,结果表明,将半监督学习与主动学习相结合,能够更有效的利用未标注评论数据,从而有效地提高虚假评论检测的效果.Detection of fake reviews based on supervision is limited by the size of the annotation corpus. In order to make better use of unlabeled review data to improve the classifier's accuracy and generalization ability,a fake review detection method based on semi-supervised active learning is proposed in this paper. Firstly,review content features and reviewers' behavioral features are defined,extracted and combined to detect fake reviews. Secondly,entropy-based active learning algorithm is utilized to select the most helpful review samples for learning,and to obtain their labeled categories that will be merged into the semi-supervised learning training set based on Tri-training algorithm,which exploits a large number of unlabeled reviews to learn and improves the performance of the classifier. Finally,a test is carried out on domain review datasets. The experimental results show that the combination of semi-supervised learning and active learning takes effective advantage of the unlabeled reviews to improve the detection.
关 键 词:虚假评论 半监督学习 主动学习 TRI-TRAINING
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.143