深度学习说话人识别中语音特征参数提取研究  被引量:2

Research on the Extraction Method of Speech Features in SpeakerRecognition based on Deep Learning

在线阅读下载全文

作  者:张兴明 杨凯[1,2] ZHANG Xing-ming;YANG Kai(National Key Laboratory of Fundamental Science on Synthetic Vision,Sichuan University,Chengdu 610065;Wisesoft Co.,Ltd.,Chengdu 610045)

机构地区:[1]四川大学视觉合成图形图像技术国防重点学科实验室,成都610065 [2]四川川大智胜软件股份有限公司,成都610045

出  处:《现代计算机》2021年第8期3-7,13,共6页Modern Computer

基  金:四川省科技计划项目(No.2020YFG0327)。

摘  要:本文根据基于深度学习的说话人识别研究需求,对模型输入的语音特征参数进行了提取研究。本文将传统的语音特征参数:MFCC、Filterbank、频谱图进行多种方式融合,提出4种融合特征参数,并构建基于卷积神经网络的说话人识别模型来进行有效性、可用性验证。在Free ST Chinese Mandarin Corpus数据集上进行试验,实验结果证明该融合特征参数提取方式是有效的。由三个单特征融合的特征参数:Integration_MFS_20-20-88取得最优的结果,F1值为87.56%,正确率为97.57%,等错率为4.89%,该特征参数可以用于基于深度学习的说话人识别研究。According to the needs of speaker recognition based on deep learning,this paper studies the extraction of speech feature parameters for model input.In this paper,the traditional speech feature parameters:MFCC,Filterbank and spectrum are integrated in a variety of ways,and four integration feature parameters are proposed and a speaker recognition model based on convolutional neural network is constructed to verify the effectiveness and usability.Experiments on the Free ST Chinese Mandarin Corpus show that these integration feature extrac⁃tion methods are effective.Feature parameters integrated by three single features:Integration_MFS_20-20-88 achieves the best result,F1 value is 87.56%,accuracy rate is 97.57%,and equal error rate is 4.89%.This feature parameter can be used in speaker recognition based on deep learning.

关 键 词:说话人识别 语音特征 融合特征 深度学习 声纹识别 

分 类 号:TN912.34[电子电信—通信与信息系统] TP18[电子电信—信息与通信工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象