基于多语言模型词汇增强的低资源情感分析  被引量:1

Low-resource sentiment analysis based on multilingual model with vocabulary augmentation

在线阅读下载全文

作  者:刘结[1] 陈梅[1] 刘江越[1] LIU Jie;CHEN Mei;LIU Jiangyue(Urumqi Vocational University,Urumqi 830002,China)

机构地区:[1]乌鲁木齐职业大学,乌鲁木齐830002

出  处:《智能计算机与应用》2024年第12期82-89,共8页Intelligent Computer and Applications

基  金:新疆维吾尔自治区社会科学基金项目(2023BGL076);广东省高等教育学会研究课题(22GYB065);中国科学院“西部之光”人才培养计划项目(2021-XBQNXZ-032)。

摘  要:针对多语言情感分析任务中低资源语言模型词汇量稀少的问题,本文提出一种多语言模型词汇增强的框架。该框架基于齐普夫定律对低频但信息量丰富的词汇进行选择,以扩充低资源语言中的少见词。并结合加权熵对模型词汇表进行优化,以扩充与特定情感任务相关的特异词。然后利用多语言模型预训练和微调进行情感分类。实验结果表明,在印地语和印地语-英语混合语言任务上,提出的框架显著提升了低资源情感分析的性能。本方法不仅改善了低资源语言情感分析的性能,还提高了多语言情感分析的整体适应性。Aiming at the limited vocabulary of low resource language model in multilingual sentiment analysis,a framework is proposed for vocabulary augmentation of multilingual model.This framework gains low-frequency but informative words based on Zipf's law to expand rare words in low-resource languages.Moreover,it optimizes the vocabulary with the weighted entropy to expand the specific words related to sentiment analysis.Then,the multilingual model is pretrained and finetuned for sentiment analysis.Experimental results show that this framework significantly improves the performance of low-resource sentiment analysis on both Hindi and Hindi-English mixed language.This framework not only improves the performance of low-resource language sentiment analysis,but also enhances the overall adaptability of multilingual sentiment analysis.

关 键 词:低资源语言 情感分析 词汇增强 多语言模型 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象