基于梯度数据选择的跨领域情感分析  

Cross-domain Sentiment Analysis Based on Gradient Data Selection

在线阅读下载全文

作  者:苏仪 周夏冰 SU Yi;ZHOU Xia-bing(School of Computer Science and Technology,Soochow University,Suzhou 215006,China)

机构地区:[1]苏州大学计算机科学与技术学院,江苏苏州215006

出  处:《软件导刊》2023年第5期50-56,共7页Software Guide

基  金:国家自然科学基金面上项目(62176174)。

摘  要:情感分析研究往往依赖特定场景的大量标注数据,领域迁移会导致模型需要重新进行训练,因此跨领域情感分析任务应运而生。然而,目前跨领域情感分析方法大多考虑学习域的不变特征,或进行特征适应以处理源领域与目标领域的差距,并没有充分、高效地利用源领域数据,所以需要从数据迁移和利用的角度研究领域适应问题。不同于之前从源领域提取可迁移样本的启发式方法,提出一种通用的可学习的替代方法——梯度数据选择(GDS),可在训练过程中自动分配样本权重,由此使不可迁移的样本很容易在采样过程中被丢弃,而可迁移的样本会被更加频繁地采样到。在英文和中文两个数据集上进行实验,并将GDS应用到BERT、RoBERTa等模型进行通用性分析,实验结果证实了该方法的有效性。The research of sentiment analysis often relies on a large amount of labeled data in specific domain,and domain transfer will lead to the retraining of models.Therefore,cross-domain sentiment analysis tasks emerge as the times require.However,most of the cross-domain sentiment analysis methods mainly consider learning domain-invariant features or perform feature adaptation to deal with the gap between the source domain and the target domain,and do not fully and efficiently utilize the source domain data,so study domain adaptation from the per‐spective of data transfer and utilization.Unlike previous heuristics that extract transferable samples from the source domain,this paper propos‐es a general and learnable alternative,gradient data selection(GDS),to automatically assign weights to samples during training.As a result,non-transferable samples are easily discarded in the sampling process,while transferable samples are sampled more frequently.Related exper‐iments are carried out on two data sets of English and Chinese,and GDS is applied to different models(BERT,RoBERTa,etc.)for generality analysis,the results confirm the effectiveness of this method.

关 键 词:跨领域情感分析 领域适应 数据选择 半监督学习 迁移学习 预训练模型 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象