检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:彭凯贝 孙小明 陈皓炜 王建荣 PENG Kai-bei;SUN Xiao-ming;CHEN Hao-wei;WANG Jian-rong(Institute of Computing Technology,China Academy of Railway Sciences Corporation Limited,Beijing100190,China;School of Mathematical Sciences,Shanxi University,Taiyuan Shanxi030006,China;College of Intelligence and Computing,Tianjin University,Tianjin 300072,China)
机构地区:[1]中国铁道科学研究院集团有限公司电子计算技术研究所,北京100081 [2]山西大学数学科学学院,山西太原030006 [3]天津大学智能与计算学部,天津300072
出 处:《计算机仿真》2023年第2期177-180,189,共5页Computer Simulation
基 金:国家自然科学基金(61972016);国家重点研发计划项目(2020YFF0304100);中国博士后科学基金(2021M692400);江苏省自然科学基金(BK20201479);中国铁道科学研究院集团有限公司重点项目(2021YJ183)。
摘 要:近年来,卷积神经网络在图像、文本、语音分类等领域广泛使用,但现有的研究大多忽视了特定场所下语音情感识别的性能。针对上述问题,提出一种基于卷积神经网络(CNN)的火车站语音情感识别模型。模型首先提取每条语音的梅尔倒谱系数(MFCC)特征,然后把提取的特征矩阵送到卷积神经网络训练,最后由网络输出每个语音的所属类别。此外在模型的输出层加入了置信度的设置,认为每一条语音属于某类别的概率大于90%则是可信的,否则不可信。实验结果表明,与循环神经网络(RNN)和多层感知器(MLP)相比,上述模型准确率更高。所提出的方法为深度学习技术在语音情感识别中的应用及火车站等场所危险情况的预警提供了一定的借鉴。In recent years,convolutional neural networks have been widely used in image,text,speech classification and other fields,but most of the existing researches ignores the performance of speech emotion recognition in specific places.To solve this problem,this paper proposes a speech emotion recognition model based on Convolutional Neural Network(CNN).The model first extracts the Mel Cepstral Coefficient(MFCC)feature of each speech,and then sends the extracted feature matrix to the convolution the neural network for is traineding,and finally outputs the category of each voice is output byfrom the network.In addition,a confidence setting is added to the output layer of the model,and it is believed that the probability of each voice belonging to a certain category is greater than 90%.Experimental results show that the model has a higher accuracy rate compared with Recurrent Neural Network(RNN)and Multilayer Perceptron(MLP).The method proposed in this paper provides a certain reference for the application of deep learning technology in speech emotion recognition and early warning of dangerous situations in railway stations and other places.
关 键 词:深度学习 语音情感识别 卷积神经网络 梅尔频率倒谱系数
分 类 号:TP391.9[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.90