基于对比损失的低资源语言情感分类  

在线阅读下载全文

作  者:杜广进 拥措 

机构地区:[1]西藏大学信息科学技术学院,西藏拉萨850000 [2]西藏自治区藏文信息技术人工智能重点实验室,西藏拉萨850000 [3]藏文信息技术教育部工程研究中心,西藏拉萨850000

出  处:《电脑知识与技术》2025年第6期9-11,共3页Computer Knowledge and Technology

摘  要:随着自然语言处理技术的快速发展,跨语言预训练模型为低资源语言处理提供了新的研究途径。然而,现有模型在马来语、豪萨语等低资源语言上的性能仍有待提升,主要受限于训练数据的匮乏和质量不均。特别是在情感分类任务中,传统的全参数微调方法难以充分利用有限训练集中标签之间的关系,导致模型在不同类别上的性能差异显著。针对这一挑战,该文提出了一种基于对比损失的低资源语言情感分类方法(CL-LRSC),通过在多语言预训练模型的微调过程中引入对比损失,优化文本在向量空间的表示。该方法在保持传统交叉熵损失的基础上,通过对比学习使相同情感类别的文本表示相互靠近,不同情感类别的文本表示相互远离。在阿姆哈拉语、印尼语和豪萨语三种低资源语言的情感分类实验中,该方法显著提升了分类性能。实验结果表明,在XLM-R模型上,印尼语和豪萨语的F1分数分别从89.19%提升至91.96%和从66.00%提升至71.48%。研究成果为解决低资源语言的情感分类问题提供了新的思路。

关 键 词:情感分类 低资源语言 对比损失 多语言预训练模型 

分 类 号:TP3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象