支持跨领域的中文虚假评论识别方法  被引量:1

Support for Cross-Domain Methods of Identifying Fake Comments of Chinese

在线阅读下载全文

作  者:谷岩[1] 郑楷洪 胡勇军[1] 宋益善 刘东屏 Gu Yan;Zheng Kaihong;Hu Yongjun;Song Yishan;Liu Dongping(School of Management,Guangzhou University,Guangzhou 510006,China;School of Data Science,The Chinese University of Hong Kong,Shenzhen 518000,China;Partner&Business Enabling,Amazon Web Services GCR,Beijing 100015,China)

机构地区:[1]广州大学管理学院,广州510006 [2]香港中文大学数据科学学院,深圳518000 [3]亚马逊云科技大中华区合作伙伴及业务赋能部,北京100015

出  处:《数据分析与知识发现》2024年第2期84-98,共15页Data Analysis and Knowledge Discovery

基  金:国家社会科学基金项目(项目编号:18BGL236);国家重点研发计划(项目编号:2021YFB3301801);教育部第二期供需对接就业育人项目重点领域校企合作项目(项目编号:20230103480)的研究成果之一。

摘  要:【目的】在多领域数据集的基础上,构建一种基于评论文本深层词关系语义信息提取的支持跨领域的中文虚假评论识别模型CFEE,解决传统识别方法较少考虑中文评论文本中存在不同领域数据差异性和领域虚假评论数据隐藏性的问题。【方法】提出11条虚假评论数据集建立规则,建立多领域数据集;构建CFEE模型跨领域识别中文虚假评论,其主要功能为基于ERNIE预训练模型提取文本深层语义信息、基于评论文本情感属性识别评论隐藏性、基于卷积神经网络将文本信息投射到词关系维度、基于神经网络融合特征实现分类。【结果】CFEE模型在多领域中文虚假评论数据集上的F1值为91.52%,在手机、食品、服装、家电等单领域数据集上的F1值分别为85.71%、79.59%、85.71%、85.00%,效果均显著优于现有模型。【局限】存在人工标注的主观性。【结论】本文所提识别方法能够有效地跨领域识别中文虚假评论。[Objective]This paper constructs a cross-domain Chinese fake review identification model(CFEE)for multi-domain datasets.It extracts the semantic information of the comment texts and addresses the problems of traditional recognition models.[Methods]First,we established 11 rules for constructing fake review datasets and created a multi-domain dataset.Then,we designed the CFEE model to identify Chinese fake comments across domains.Third,it extracted the deep semantic information with the ERNIE pre-training model.The model identified the hidden comments based on the texts’emotional attributes.Finally,it projected the text information to the word relation dimension with the convolutional neural network and realized classification based on features of neural network fusion.[Results]The CFEE model’s F1 value reached 91.52%on the multi-domain Chinese fake comment datasets.The model’s F1 values were 85.71%,79.59%,85.71%,and 85.00%on single-domain datasets for mobile phones,food,clothing,and household appliances,respectively.It outperformed the existing models significantly.[Limitations]There is subjectivity in the manual annotation.[Conclusions]The proposed method can effectively identify Chinese fake reviews across domains.

关 键 词:虚假评论 ERNIE模型 跨领域识别 中文语义 情感得分 

分 类 号:G252[文化科学—图书馆学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象