检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李聪 葛洪伟 LI Cong;GE Hongwei(Ministry of Education Key Laboratory of Advanced Process Control for Light Industry,Jiangnan University,Wuxi,Jiangsu 214122,China;School of Internet of Things Engineering,Jiangnan University,Wuxi,Jiangsu 214122,China)
机构地区:[1]江南大学轻工过程先进控制教育部重点实验室,江苏无锡214122 [2]江南大学物联网工程学院,江苏无锡214122
出 处:《计算机科学与探索》2019年第8期1351-1359,共9页Journal of Frontiers of Computer Science and Technology
基 金:国家自然科学基金No.61305017;江苏省普通高校研究生科研创新计划项目No.KYLX16_0781;江苏省高校优势学科建设工程项目~~
摘 要:针对归一化功率倒谱系数(PNCC)在较低信噪比噪声环境下说话人识别鲁棒性不佳的问题,提出了非线性幂函数变换伽马啁啾频率倒谱系数(NPGFCC)的抗噪语音特征提取算法。相比PNCC,NPGFCC的不同之处在于其采用符合人耳听觉特性的归一化压缩Gammachirp滤波器组代替Gammatone滤波器组进行滤波,并在特征参数中融合了分段式非线性幂函数变换的方式。另外,算法中利用了均值方差归一化和时间序列滤波等技术的方法,进一步提高了其在噪声环境下的鲁棒性,并在改进的i-vector+PLDA模型下进行了测试。实验结果表明,相较于目前常用的一些说话人语音特征提取算法,在不同噪声和不同信噪比下,NPGFCC特征具有最佳抗噪性能,特别是在信噪比较低的情况下,与其他语音特征相比,NPGFCC特征具有更大的优势。To solve the problem of poor speaker recognition robustness with power normalized cepstral coefficients (PNCC) feature in low-SNR noisy environment,this paper presents the anti-noise speech feature extraction algorithm for nonlinear power-function Gammachirp frequency cepstral coefficients (NPGFCC).Compared with PNCC,NPGFCC uses normalized compression Gammachirp filter bank which conforms to human auditory characteristics to replace Gammatone filter bank for the filtering and also combines piecewise nonlinear power- function transformation in characteristic parameters.This algorithm also adopts mean variance normalization and time series filtering methods to further improve its robustness in noisy environment,which is tested with an improved i-vector + PLDA model. The result shows that compared with currently common speech feature extraction algorithms,NPGFCC has the best anti-noise performance against different noises and different SNRs.Especially in the case of low SNRs,the NPGFCC feature has greater advantage over other speech features.
关 键 词:特征提取 说话人识别 伽马啁啾滤波器 高斯混合模型-通用背景模型(GMM-UBM) 辨识向量(i-vector) 概率线性判别分析(PLDA)
分 类 号:TN912.3[电子电信—通信与信息系统] TP18[电子电信—信息与通信工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15