基于多特征融合的藏语语音情感识别  被引量:3

Tibetan speech emotion recognition based on multi⁃feature fusion

在线阅读下载全文

作  者:谷泽月 边巴旺堆 祁晋东 GU Zeyue;BIANBA Wangdui;QI Jindong(School of Information Science and Technology,Tibet University,Lhasa 850000,China;National Experimental Teaching Demonstration Center of Information Technology,Lhasa 850000,China)

机构地区:[1]西藏大学信息科学技术学院,西藏拉萨850000 [2]信息技术国家级实验教学示范中心,西藏拉萨850000

出  处:《现代电子技术》2023年第21期129-133,共5页Modern Electronics Technique

基  金:西藏自治区高原通信科研创新团队项目(XZZZQ2018003);西藏大学研究生高水平人才培养计划项目(2021⁃GSP⁃S121)。

摘  要:藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,为了构建具有高效性和针对性的藏语语音情感识别模型,文中构建了一种藏语语音情感数据集(TBSEC001),并提出一种适合于藏语的手工语音情感特征集(TPEFS),该特征集是在藏语与其他语言的共性和特性的基础上手工提取得到的,TPEFS特征集在支持向量机(SVM)、多层感知机(MLP)、卷积神经网络(CNN)、长短时记忆网络(LSTM)这些经典网络中都取得了不错的效果。所提出的方法在藏语语音数据集(TBSEC001)上取得了88.4%的识别结果,以及在EMODB、RAVDESS、CASIA数据库上分别取得了84.1%、74.3%以及82.5%的识别结果。实验结果表明,该特征集在保证识别率的情况下,对藏语语音情感识别具有一定针对性。Tibetan speech emotion recognition(SER)is the application of SER in minority speech processing.SER is an important research direction of human⁃computer interaction.It is an important research content of SER to extract the features that can characterize speech emotion best and build an acoustic model with strong robustness and generalization.Therefore,a Tibetan speech emotion dataset TBSEC001 is constructed and a manual speech emotion feature set TPEFS suitable for Tibetan is proposed to construct an efficient and targeted Tibetan SER model.The feature set is manually extracted on the basis of the commonalities and characteristics between Tibetan and other languages.The feature set TPEFS has achieved good results in classical networks,such as support vector machine(SVM),multilayer perceptron(MLP),convolutional neural network(CNN)and long short⁃term memory network(LSTM).The proposed method achieves 88.4%recognition results on Tibetan speech dataset TBSEC001,and 84.1%,74.3%and 82.5%recognition rate on databases EMODB,RAVDESS and CASIA,respectively.The experimental results show that the feature set has certain pertinence for Tibetan SER under the condition of ensuring recognition rate.

关 键 词:语音情感识别 特征提取 深度学习 深度特征 声音质量 多模态情感识别 

分 类 号:TN919.5-34[电子电信—通信与信息系统] TP391[电子电信—信息与通信工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象