检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]沈阳化工大学计算机科学与技术学院,辽宁沈阳110142
出 处:《物联网技术》2023年第6期36-39,44,共5页Internet of things technologies
摘 要:针对语音情感识别中数据样本不足、识别准确率不高等问题,本文将深度残差网络(Resnet)和Transformer模型相结合,设计了一种基于Resnet结构和Transformer结构的Res-Transformer模型,该模型由两个并行的Resnet结构和Transformer编码器结构构成,利用Resnet结构处理空间信息、Transformer编码器结构处理时间信息。此外,使用MFCC特征作为模型的输入,MFCC特征可以提取出语音信号中的低级和高级情感特征;同时结合高斯白噪声(AWGN)将数据增强,以防止过拟合。最后,采用中心损失函数和SoftMax交叉熵损失函数联合决策的方式,缩短了同种情感之间的距离,进一步增加了分类的准确率。实验结果表明,本文提出的Res-Transformer模型识别的准确率为84.89%。在RAVDESS数据集上,与使用CNN-Transformer等结构相比,Res-Transformer模型的语音情感识别准确率实现了有效提升。
关 键 词:语音情感识别 深度残差网络 Transformer编码器 MFCC特征 高斯白噪声 中心损失函数
分 类 号:TN912.3[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7