基于代价敏感的中文文本的情感-原因对提取研究  

Research on Emotion Reason Pair Extraction Based on Cost Sensitive Chinese Text

在线阅读下载全文

作  者:胡朝晖 潘伟民[1] 张海军[1] 韩连金 HU Zhaohui;PAN Weimin;ZHANG Haijun;HAN Lianjin(School of Computer Science and Technology,Xinjiang Normal University,Urumqi 830054)

机构地区:[1]新疆师范大学计算机科学技术学院,乌鲁木齐830054

出  处:《计算机与数字工程》2022年第10期2229-2232,2258,共5页Computer & Digital Engineering

基  金:国家自然科学基金—新疆联合基金项目“网络谣言检测与舆论引导算法研究”(编号:U1703261);新疆师范大学硕士研究生科研创新基金项目“基于时间序列的微博谣言检测方法”(编号:XSY202002005)资助。

摘  要:情感-原因对提取在商业信息挖掘等领域有重要的应用。为了解决情感-原因对提取任务中数据集出现的标签不平衡问题,提出基于代价敏感的损失函数方法解决标签不平衡,同时,针对谷歌全词覆盖BERT的国外公开数据集缺乏中文语言的相关模型和忽略了中文分词的作用,该文采用哈工大讯飞联合发布中文BERT-wwm进行预训练。通过对比试验表明,在P、R、F1结果都有提升,尤其F1结果上有接近1%的提升,验证了该方法在情感-原因对提取研究上的有效性。Emotion-cause extraction has important applications in business information mining and other fields. In order to solve the problem of label imbalance in the data set in the emotion-cause extraction task,a cost-sensitive loss function method is proposed to solve the label imbalance. At the same time,the foreign public data set for Google’s full word coverage of BERT lacks a relevant model of the Chinese language. And the role of Chinese word segmentation is ignored,this article uses the Chinese BERT-wwm jointly released by Harbin institute of technology IFLYTEK for pre-training. Comparative experiments show that the results of P,R,and F1 have improved,especially the F1 results have an improvement of close to 1%,which verifies the effectiveness of the method in the study of emotion-cause pair extraction.

关 键 词:情感-原因对提取 标签不平衡 代价敏感 BERT-wwm 

分 类 号:TB112[理学—数学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象