面向语音情感识别的语谱图特征提取算法  被引量:17

Spectrogram feature extraction algorithm for speech emotion recognition

在线阅读下载全文

作  者:陶华伟[1] 査诚 梁瑞宇[1,2] 张昕然[1] 赵力[1] 王青云[1,2] 

机构地区:[1]东南大学水声信号处理教育部重点实验室,南京210096 [2]南京工程学院通信工程学院,南京211167

出  处:《东南大学学报(自然科学版)》2015年第5期817-821,共5页Journal of Southeast University:Natural Science Edition

基  金:国家自然科学基金资助项目(61231002;61273266;61301219);教育部博士点专项基金资助项目(20110092130004);江苏省自然科学基金资助项目(BK20130241)

摘  要:为研究信号相关性在语音情感识别中的作用,提出了一种面向语音情感识别的语谱图特征提取算法.首先,对语谱图进行处理,得到归一化后的语谱图灰度图像;然后,计算不同尺度、不同方向的Gabor图谱,并采用局部二值模式提取Gabor图谱的纹理特征;最后,将不同尺度、不同方向Gabor图谱提取到的局部二值模式特征进行级联,作为一种新的语音情感特征进行情感识别.柏林库(EMO-DB)及FAU Ai Bo库上的实验结果表明:与已有的韵律、频域、音质特征相比,所提特征的识别率提升3%以上;与声学特征融合后,所提特征的识别率较早期声学特征至少提高5%.因此,利用这种新的语音情感特征可以有效识别不同种类的情感语音.In order to study the role of signal correlation in emotional speech recognition,a spectrogram feature extraction algorithm for speech emotion recognition is proposed.First,speech signal is quantized as speech spectrum gray image after preprocessing.Then,the Gabor spectrum images with different scales and different directions are calculated,and the texture features are extracted by local binary pattern (LBP).Finally,the LBP features of the Gabor spectrogram images with different scales and different directions are joined to form a new feature for emotion recognition.The experimental results of EMO-DB and FAU AiBo show that the recognition rate of the proposed features can be raised to at least 3% higher than those of the conventional rhythm and frequency domain features. After fusion with acoustic features,the recognition rate can be raised to at least 5% higher than those of the conventional acoustic features.Therefore,the proposed features can effectively identify different kinds of emotional speech.

关 键 词:情感识别 语谱图 图像纹理特征 局部二值模式 

分 类 号:TP391.42[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象