检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王泳 于拴帅 杨继臣 阳建华 陈兵 WANG Yong;YU Shuanshuai;YANG Jichen;YANG Jianhua;CHEN Bing(Guangdong Polytechnic Normal University,Guangzhou Guangdong 510665)
机构地区:[1]广东技术师范大学网络空间安全学院,广东广州510665
出 处:《广东技术师范大学学报》2024年第6期8-15,40,共9页Journal of Guangdong Polytechnic Normal University
基 金:国家自然科学基金(61672173);国家自然科学基金(62102462);广东省基础与应用基础研究基金(2022A1515010108);广东技术师范大学科研启动项目(2021SDKYA127)。
摘 要:伴随着语音识别的发展,语音欺骗的方式也层出不穷.针对一些模仿或经过伪造、变形的语音,本文提出了一种改进的梅尔频率倒谱系数(MFCC)语音特征提取方式,不经过最后一步离散余弦变换,使用保留了更多特征的滤波器组,并经过倒谱均值和方差归一化(CMVN)后作为特征数据,分类器为一个具有20层结构的残差网络,从而实现对欺骗语音的检测.实验的数据集来自ASVspoof2019语音挑战赛数据集中的LA部分.实验结果表明,该方法对欺骗语音检测的准确率高于MFCC6个百分点,而EER更是好于MFCC8个百分点.With the development of speech recognition,various ways of speech deception have emerged.To address imitated or forged/deformed speech,this paper proposes an improved Mel-frequency cepstral coefficient(MFCC)feature extraction method.Unlike the traditional approach,which applies the final discrete cosine transform(DCT),this method uses a filter bank that retains more features,followed by Cepstral mean and variance normalization(CMVN)to generate feature data.The classifier is a residual network with a 20-layer structure,enabling the detection of deceptive speech.The experimental dataset is derived from the LA section of the ASVspoof2019 Voice Challenge.The experimental results show that the this method achieves a 6%higher accuracy in detecting deceptive speech compared to MFCC,and with an Equal Error Rate(EER)improvement of 8 percentage points over MFCC.
分 类 号:TP309[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.224.202.121