检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:谷泽月 边巴旺堆 祁晋东 GU Zeyue;BIANBA Wangdui;QI Jindong(School of Information Science and Technology,Tibet University,Lhasa 850000,China;National Experimental Teaching Demonstration Center of Information Technology,Lhasa 850000,China)
机构地区:[1]西藏大学信息科学技术学院,西藏拉萨850000 [2]信息技术国家级实验教学示范中心,西藏拉萨850000
出 处:《现代电子技术》2023年第21期129-133,共5页Modern Electronics Technique
基 金:西藏自治区高原通信科研创新团队项目(XZZZQ2018003);西藏大学研究生高水平人才培养计划项目(2021⁃GSP⁃S121)。
摘 要:藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,为了构建具有高效性和针对性的藏语语音情感识别模型,文中构建了一种藏语语音情感数据集(TBSEC001),并提出一种适合于藏语的手工语音情感特征集(TPEFS),该特征集是在藏语与其他语言的共性和特性的基础上手工提取得到的,TPEFS特征集在支持向量机(SVM)、多层感知机(MLP)、卷积神经网络(CNN)、长短时记忆网络(LSTM)这些经典网络中都取得了不错的效果。所提出的方法在藏语语音数据集(TBSEC001)上取得了88.4%的识别结果,以及在EMODB、RAVDESS、CASIA数据库上分别取得了84.1%、74.3%以及82.5%的识别结果。实验结果表明,该特征集在保证识别率的情况下,对藏语语音情感识别具有一定针对性。Tibetan speech emotion recognition(SER)is the application of SER in minority speech processing.SER is an important research direction of human⁃computer interaction.It is an important research content of SER to extract the features that can characterize speech emotion best and build an acoustic model with strong robustness and generalization.Therefore,a Tibetan speech emotion dataset TBSEC001 is constructed and a manual speech emotion feature set TPEFS suitable for Tibetan is proposed to construct an efficient and targeted Tibetan SER model.The feature set is manually extracted on the basis of the commonalities and characteristics between Tibetan and other languages.The feature set TPEFS has achieved good results in classical networks,such as support vector machine(SVM),multilayer perceptron(MLP),convolutional neural network(CNN)and long short⁃term memory network(LSTM).The proposed method achieves 88.4%recognition results on Tibetan speech dataset TBSEC001,and 84.1%,74.3%and 82.5%recognition rate on databases EMODB,RAVDESS and CASIA,respectively.The experimental results show that the feature set has certain pertinence for Tibetan SER under the condition of ensuring recognition rate.
关 键 词:语音情感识别 特征提取 深度学习 深度特征 声音质量 多模态情感识别
分 类 号:TN919.5-34[电子电信—通信与信息系统] TP391[电子电信—信息与通信工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38