检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张兴明 杨凯[1,2] ZHANG Xing-ming;YANG Kai(National Key Laboratory of Fundamental Science on Synthetic Vision,Sichuan University,Chengdu 610065;Wisesoft Co.,Ltd.,Chengdu 610045)
机构地区:[1]四川大学视觉合成图形图像技术国防重点学科实验室,成都610065 [2]四川川大智胜软件股份有限公司,成都610045
出 处:《现代计算机》2021年第8期3-7,13,共6页Modern Computer
基 金:四川省科技计划项目(No.2020YFG0327)。
摘 要:本文根据基于深度学习的说话人识别研究需求,对模型输入的语音特征参数进行了提取研究。本文将传统的语音特征参数:MFCC、Filterbank、频谱图进行多种方式融合,提出4种融合特征参数,并构建基于卷积神经网络的说话人识别模型来进行有效性、可用性验证。在Free ST Chinese Mandarin Corpus数据集上进行试验,实验结果证明该融合特征参数提取方式是有效的。由三个单特征融合的特征参数:Integration_MFS_20-20-88取得最优的结果,F1值为87.56%,正确率为97.57%,等错率为4.89%,该特征参数可以用于基于深度学习的说话人识别研究。According to the needs of speaker recognition based on deep learning,this paper studies the extraction of speech feature parameters for model input.In this paper,the traditional speech feature parameters:MFCC,Filterbank and spectrum are integrated in a variety of ways,and four integration feature parameters are proposed and a speaker recognition model based on convolutional neural network is constructed to verify the effectiveness and usability.Experiments on the Free ST Chinese Mandarin Corpus show that these integration feature extrac⁃tion methods are effective.Feature parameters integrated by three single features:Integration_MFS_20-20-88 achieves the best result,F1 value is 87.56%,accuracy rate is 97.57%,and equal error rate is 4.89%.This feature parameter can be used in speaker recognition based on deep learning.
关 键 词:说话人识别 语音特征 融合特征 深度学习 声纹识别
分 类 号:TN912.34[电子电信—通信与信息系统] TP18[电子电信—信息与通信工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.224.212.19