检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:谷岩[1] 郑楷洪 胡勇军[1] 宋益善 刘东屏 Gu Yan;Zheng Kaihong;Hu Yongjun;Song Yishan;Liu Dongping(School of Management,Guangzhou University,Guangzhou 510006,China;School of Data Science,The Chinese University of Hong Kong,Shenzhen 518000,China;Partner&Business Enabling,Amazon Web Services GCR,Beijing 100015,China)
机构地区:[1]广州大学管理学院,广州510006 [2]香港中文大学数据科学学院,深圳518000 [3]亚马逊云科技大中华区合作伙伴及业务赋能部,北京100015
出 处:《数据分析与知识发现》2024年第2期84-98,共15页Data Analysis and Knowledge Discovery
基 金:国家社会科学基金项目(项目编号:18BGL236);国家重点研发计划(项目编号:2021YFB3301801);教育部第二期供需对接就业育人项目重点领域校企合作项目(项目编号:20230103480)的研究成果之一。
摘 要:【目的】在多领域数据集的基础上,构建一种基于评论文本深层词关系语义信息提取的支持跨领域的中文虚假评论识别模型CFEE,解决传统识别方法较少考虑中文评论文本中存在不同领域数据差异性和领域虚假评论数据隐藏性的问题。【方法】提出11条虚假评论数据集建立规则,建立多领域数据集;构建CFEE模型跨领域识别中文虚假评论,其主要功能为基于ERNIE预训练模型提取文本深层语义信息、基于评论文本情感属性识别评论隐藏性、基于卷积神经网络将文本信息投射到词关系维度、基于神经网络融合特征实现分类。【结果】CFEE模型在多领域中文虚假评论数据集上的F1值为91.52%,在手机、食品、服装、家电等单领域数据集上的F1值分别为85.71%、79.59%、85.71%、85.00%,效果均显著优于现有模型。【局限】存在人工标注的主观性。【结论】本文所提识别方法能够有效地跨领域识别中文虚假评论。[Objective]This paper constructs a cross-domain Chinese fake review identification model(CFEE)for multi-domain datasets.It extracts the semantic information of the comment texts and addresses the problems of traditional recognition models.[Methods]First,we established 11 rules for constructing fake review datasets and created a multi-domain dataset.Then,we designed the CFEE model to identify Chinese fake comments across domains.Third,it extracted the deep semantic information with the ERNIE pre-training model.The model identified the hidden comments based on the texts’emotional attributes.Finally,it projected the text information to the word relation dimension with the convolutional neural network and realized classification based on features of neural network fusion.[Results]The CFEE model’s F1 value reached 91.52%on the multi-domain Chinese fake comment datasets.The model’s F1 values were 85.71%,79.59%,85.71%,and 85.00%on single-domain datasets for mobile phones,food,clothing,and household appliances,respectively.It outperformed the existing models significantly.[Limitations]There is subjectivity in the manual annotation.[Conclusions]The proposed method can effectively identify Chinese fake reviews across domains.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.223