基于预训练模型的语音情感识别算法  

Speech Emotion Recognition Algorithm Based on Pre-Trained Model

在线阅读下载全文

作  者:许苏魁 潘敬敏 何灏 胡婷婷 Xu Sukui;Pan Jingmin;He Hao;Hu Tingting(College of Computer and Software Engineering,Anhui Institute of Information Technology,Wuhu,China)

机构地区:[1]安徽信息工程学院计算机与软件工程学院,安徽芜湖

出  处:《科学技术创新》2025年第3期65-68,共4页Scientific and Technological Innovation

基  金:2022年安徽信息工程学院青年科研基金项目(22QNJJKJ005);2022年安徽信息工程学院“三全育人“”管理改进”科研专项项目资助(22GLGJZX001);2023年安徽省高校自然科学研究项目(2023AH052912)。

摘  要:针对语音情感识别任务,本文提出一种基于开源大规模语音预训练模型的算法方案。类似于图像分类任务的迁移学习做法,把wav2vec2或者HuBERT模型当作语音特征提取器,对语音数据提取特征,然后接全连接网络进行分类。同时,固定预训练模型的里的提特征模块权重,对其Transformer层和最终的分类网络一起进行微调。实验结果显示,在IEMOCAP数据集的四类情感识别任务上,采用HuBERT-large的预训练模型,本文的方法可以取得0.731的分类正确率。For speech emotion recognition tasks,this paper proposes an algorithm based on an open source large-scale speech pre-training model.Similar to the transfer learning approach for image classification tasks,we use wav2vec2 or HuBERT model as a speech feature extractor to extract features from speech data,and then followed by a fully connected network to do classification.At the same time,the feature extraction module in the pre-trained model is fixed,while the rest Transformer layers and the final classification network are fine-tuned together.Experimental results show that for the four categories of emotion recognition tasks in the IEMOCAP dataset,using the HuBERT-large pre-training model,the method in this paper can achieve a classification accuracy of 0.731.

关 键 词:预训练语音模型 情感识别 自监督模型 迁移学习 深度学习 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象