基于预训练模型的语音情感识别算法

Speech Emotion Recognition Algorithm Based on Pre-Trained Model

作　　者：许苏魁潘敬敏何灏胡婷婷 Xu Sukui;Pan Jingmin;He Hao;Hu Tingting(College of Computer and Software Engineering,Anhui Institute of Information Technology,Wuhu,China)

机构地区：[1]安徽信息工程学院计算机与软件工程学院,安徽芜湖

出　　处：《科学技术创新》2025年第3期65-68,共4页Scientific and Technological Innovation

基　　金：2022年安徽信息工程学院青年科研基金项目(22QNJJKJ005);2022年安徽信息工程学院“三全育人“”管理改进”科研专项项目资助(22GLGJZX001);2023年安徽省高校自然科学研究项目(2023AH052912)。

摘　　要：针对语音情感识别任务,本文提出一种基于开源大规模语音预训练模型的算法方案。类似于图像分类任务的迁移学习做法,把wav2vec2或者HuBERT模型当作语音特征提取器,对语音数据提取特征,然后接全连接网络进行分类。同时,固定预训练模型的里的提特征模块权重,对其Transformer层和最终的分类网络一起进行微调。实验结果显示,在IEMOCAP数据集的四类情感识别任务上,采用HuBERT-large的预训练模型,本文的方法可以取得0.731的分类正确率。For speech emotion recognition tasks,this paper proposes an algorithm based on an open source large-scale speech pre-training model.Similar to the transfer learning approach for image classification tasks,we use wav2vec2 or HuBERT model as a speech feature extractor to extract features from speech data,and then followed by a fully connected network to do classification.At the same time,the feature extraction module in the pre-trained model is fixed,while the rest Transformer layers and the final classification network are fine-tuned together.Experimental results show that for the four categories of emotion recognition tasks in the IEMOCAP dataset,using the HuBERT-large pre-training model,the method in this paper can achieve a classification accuracy of 0.731.

关键词：预训练语音模型情感识别自监督模型迁移学习深度学习

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于预训练模型的语音情感识别算法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于预训练模型的语音情感识别算法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索