基于Res-Transformer模型的语音情感识别方法研究  被引量:2

在线阅读下载全文

作  者:刘方如 王亮 

机构地区:[1]沈阳化工大学计算机科学与技术学院,辽宁沈阳110142

出  处:《物联网技术》2023年第6期36-39,44,共5页Internet of things technologies

摘  要:针对语音情感识别中数据样本不足、识别准确率不高等问题,本文将深度残差网络(Resnet)和Transformer模型相结合,设计了一种基于Resnet结构和Transformer结构的Res-Transformer模型,该模型由两个并行的Resnet结构和Transformer编码器结构构成,利用Resnet结构处理空间信息、Transformer编码器结构处理时间信息。此外,使用MFCC特征作为模型的输入,MFCC特征可以提取出语音信号中的低级和高级情感特征;同时结合高斯白噪声(AWGN)将数据增强,以防止过拟合。最后,采用中心损失函数和SoftMax交叉熵损失函数联合决策的方式,缩短了同种情感之间的距离,进一步增加了分类的准确率。实验结果表明,本文提出的Res-Transformer模型识别的准确率为84.89%。在RAVDESS数据集上,与使用CNN-Transformer等结构相比,Res-Transformer模型的语音情感识别准确率实现了有效提升。

关 键 词:语音情感识别 深度残差网络 Transformer编码器 MFCC特征 高斯白噪声 中心损失函数 

分 类 号:TN912.3[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象