检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:许苏魁 潘敬敏 何灏 胡婷婷 Xu Sukui;Pan Jingmin;He Hao;Hu Tingting(College of Computer and Software Engineering,Anhui Institute of Information Technology,Wuhu,China)
机构地区:[1]安徽信息工程学院计算机与软件工程学院,安徽芜湖
出 处:《科学技术创新》2025年第3期65-68,共4页Scientific and Technological Innovation
基 金:2022年安徽信息工程学院青年科研基金项目(22QNJJKJ005);2022年安徽信息工程学院“三全育人“”管理改进”科研专项项目资助(22GLGJZX001);2023年安徽省高校自然科学研究项目(2023AH052912)。
摘 要:针对语音情感识别任务,本文提出一种基于开源大规模语音预训练模型的算法方案。类似于图像分类任务的迁移学习做法,把wav2vec2或者HuBERT模型当作语音特征提取器,对语音数据提取特征,然后接全连接网络进行分类。同时,固定预训练模型的里的提特征模块权重,对其Transformer层和最终的分类网络一起进行微调。实验结果显示,在IEMOCAP数据集的四类情感识别任务上,采用HuBERT-large的预训练模型,本文的方法可以取得0.731的分类正确率。For speech emotion recognition tasks,this paper proposes an algorithm based on an open source large-scale speech pre-training model.Similar to the transfer learning approach for image classification tasks,we use wav2vec2 or HuBERT model as a speech feature extractor to extract features from speech data,and then followed by a fully connected network to do classification.At the same time,the feature extraction module in the pre-trained model is fixed,while the rest Transformer layers and the final classification network are fine-tuned together.Experimental results show that for the four categories of emotion recognition tasks in the IEMOCAP dataset,using the HuBERT-large pre-training model,the method in this paper can achieve a classification accuracy of 0.731.
关 键 词:预训练语音模型 情感识别 自监督模型 迁移学习 深度学习
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.147