基于滤波器组和残差网络的欺骗语音检测  

Deceptive Speech Detection Based on Filter Banks and Residual Networks

在线阅读下载全文

作  者:王泳 于拴帅 杨继臣 阳建华 陈兵 WANG Yong;YU Shuanshuai;YANG Jichen;YANG Jianhua;CHEN Bing(Guangdong Polytechnic Normal University,Guangzhou Guangdong 510665)

机构地区:[1]广东技术师范大学网络空间安全学院,广东广州510665

出  处:《广东技术师范大学学报》2024年第6期8-15,40,共9页Journal of Guangdong Polytechnic Normal University

基  金:国家自然科学基金(61672173);国家自然科学基金(62102462);广东省基础与应用基础研究基金(2022A1515010108);广东技术师范大学科研启动项目(2021SDKYA127)。

摘  要:伴随着语音识别的发展,语音欺骗的方式也层出不穷.针对一些模仿或经过伪造、变形的语音,本文提出了一种改进的梅尔频率倒谱系数(MFCC)语音特征提取方式,不经过最后一步离散余弦变换,使用保留了更多特征的滤波器组,并经过倒谱均值和方差归一化(CMVN)后作为特征数据,分类器为一个具有20层结构的残差网络,从而实现对欺骗语音的检测.实验的数据集来自ASVspoof2019语音挑战赛数据集中的LA部分.实验结果表明,该方法对欺骗语音检测的准确率高于MFCC6个百分点,而EER更是好于MFCC8个百分点.With the development of speech recognition,various ways of speech deception have emerged.To address imitated or forged/deformed speech,this paper proposes an improved Mel-frequency cepstral coefficient(MFCC)feature extraction method.Unlike the traditional approach,which applies the final discrete cosine transform(DCT),this method uses a filter bank that retains more features,followed by Cepstral mean and variance normalization(CMVN)to generate feature data.The classifier is a residual network with a 20-layer structure,enabling the detection of deceptive speech.The experimental dataset is derived from the LA section of the ASVspoof2019 Voice Challenge.The experimental results show that the this method achieves a 6%higher accuracy in detecting deceptive speech compared to MFCC,and with an Equal Error Rate(EER)improvement of 8 percentage points over MFCC.

关 键 词:语音欺骗 MFCC 滤波器组 残差网络 

分 类 号:TP309[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象