检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:杨帆 张冕 周夏冰 张民[1] YANG Fan;ZHANG Mian;ZHOU Xiabing;ZHANG Min(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006,China)
机构地区:[1]苏州大学计算机科学与技术学院,江苏苏州215006
出 处:《中文信息学报》2024年第11期114-122,共9页Journal of Chinese Information Processing
基 金:国家自然科学基金(62176174);江苏高校优势学科建设工程资助项目。
摘 要:针对属性级情感三元组抽取任务数据稀缺的问题,该文提出一种融合实例相关情感信息的数据增强方法。首先,以机器阅读理解的形式训练情感分类器,用于获取意见词对属性词所表达情感的稠密向量表示;其次,在情感稠密向量表示的指导下,以掩码语言模型损失为目标,微调预训练语言模型;最后,遮蔽输入文本中的意见词,并使用微调后的预训练语言模型生成新样本。该方法所融入的情感信息结合了每条样本的深层语义,可以有效保证新样本与原数据情感倾向的一致性。在14res、15res和16res三个SemEval数据集上的实验结果表明,与其他相关数据增强方法相比,该方法得到的数据质量更高,并进一步提高了属性级情感三元组抽取模型的性能。For Aspect Sentiment Triplet Extraction(ASTE)task,this paper proposes a data augmentation method that incorporates instance-specific sentiment information.Firstly,we train a sentiment classifier in the form of machine reading comprehension,which is used to obtain the dense representation of the sentiment expressed by the opinion term to the aspect term.Secondly,we fine-tune a pre-trained language model with Masked Language Modeling(MLM)loss under the guidance of the dense representation of sentiment.Finally,we use the fine-tuned pre-trained language model to mask opinion terms to generate new samples.The sentiment information incorporated in this method combines the deep semantics of each training sample,which can effectively ensure the consistency of sentiment tendencies between the new samples and the original data.Experimental results on three SemEval datasets of 14res,15res,and 16res show that compared with other related data augmentation methods,the proposed method obtains better data quality and further improves the performance of the aspect sentiment triplet extraction model.
关 键 词:数据增强 属性级情感三元组抽取 掩码语言模型
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222