检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘结[1] 陈梅[1] 刘江越[1] LIU Jie;CHEN Mei;LIU Jiangyue(Urumqi Vocational University,Urumqi 830002,China)
出 处:《智能计算机与应用》2024年第12期82-89,共8页Intelligent Computer and Applications
基 金:新疆维吾尔自治区社会科学基金项目(2023BGL076);广东省高等教育学会研究课题(22GYB065);中国科学院“西部之光”人才培养计划项目(2021-XBQNXZ-032)。
摘 要:针对多语言情感分析任务中低资源语言模型词汇量稀少的问题,本文提出一种多语言模型词汇增强的框架。该框架基于齐普夫定律对低频但信息量丰富的词汇进行选择,以扩充低资源语言中的少见词。并结合加权熵对模型词汇表进行优化,以扩充与特定情感任务相关的特异词。然后利用多语言模型预训练和微调进行情感分类。实验结果表明,在印地语和印地语-英语混合语言任务上,提出的框架显著提升了低资源情感分析的性能。本方法不仅改善了低资源语言情感分析的性能,还提高了多语言情感分析的整体适应性。Aiming at the limited vocabulary of low resource language model in multilingual sentiment analysis,a framework is proposed for vocabulary augmentation of multilingual model.This framework gains low-frequency but informative words based on Zipf's law to expand rare words in low-resource languages.Moreover,it optimizes the vocabulary with the weighted entropy to expand the specific words related to sentiment analysis.Then,the multilingual model is pretrained and finetuned for sentiment analysis.Experimental results show that this framework significantly improves the performance of low-resource sentiment analysis on both Hindi and Hindi-English mixed language.This framework not only improves the performance of low-resource language sentiment analysis,but also enhances the overall adaptability of multilingual sentiment analysis.
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117