基于大语言模型和数据增强的中文毒性言论检测  

Chinese Toxic Speech Detection Based on Large Language Model and Data Augmentation

在线阅读下载全文

作  者:陈慧 朱奕竹 刘明宇 陈镜宇 吴越 Chen Hui;Zhu Yizhu;Liu Mingyu;Chen Jingyu;Wu Yue(Xihua University,Chengdu 610039;University of Electronic Science and Technology of China,Chengdu 611730)

机构地区:[1]西华大学计算机与软件工程学院,成都610039 [2]电子科技大学计算机科学与工程学院,成都611730

出  处:《情报杂志》2025年第4期99-107,116,共10页Journal of Intelligence

基  金:国家自然科学基金项目“微博热点隐话题发现及其时序特性研究”(编号:61602389);教育部产学合作协同育人项目“西部高校舆情研究建设基地”(编号:230822532407256)研究成果。

摘  要:[研究目的]研究中文毒性言论检测模型,不仅有助于提高网络舆情监测的准确性,还有利于推动网络空间环境的现代化治理。[研究方法]在明确无毒、隐毒和显毒标注规则的基础上,构建了三类标签均匀分布的中文毒性言论数据集ImToxCN,搭建了基于大语言模型和数据增强方法的毒性言论检测组合模型。[研究结果/结论]实验结果表明,在ImToxCN数据集上,大语言模型RoBERTa与数据增强方法GeniusAug的组合较其他基线模型的毒性言论检测准确率更高,准确率达到84.34%。此外,该组合模型还能准确地检测隐毒和显毒言论,在其他3个公开数据集上也表现出了最优的毒性检测效果。[Research purpose]Research on Chinese toxicity detection models not only helps improve the accuracy of online public opinion monitoring but also facilitates the advancement of modern governance in cyberspace environment.[Research method]Based on clearly defined annotation rules for non-toxic,covertly toxic,and overtly toxic language,a Chinese toxicity speech dataset named ImToxCN with evenly distributed labels across three categories was constructed.Additionally,a toxicity detection hybrid model was developed,leveraging large language models and data augmentation methods.[Research result/conclusion]The experimental results demonstrate that the combination of the RoBERTa large language model and the GeniusAug data augmentation method achieves a higher accuracy in detecting toxic speech on the ImToxCN dataset compared to other baseline models,reaching an accuracy of 84.34%.Furthermore,this combination effectively detects both covert and overt toxic speech,exhibiting optimal performance in toxic detection on three other public datasets as well.

关 键 词:毒性言论检测 毒性文本 大语言模型 数据增强 检测模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象