检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王延凯 龙华[1] 邵玉斌[1] 杜庆治[1] 王瑶 WANG Yankai;LONG Hua;SHAO Yubin;DU Qingzhi;WANG Yao(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)
机构地区:[1]昆明理工大学信息工程与自动化学院,昆明650500
出 处:《北京邮电大学学报》2023年第2期116-121,共6页Journal of Beijing University of Posts and Telecommunications
基 金:国家自然科学基金项目(61761025)。
摘 要:为了解决噪声环境下语种识别准确率低的问题,提出一种将梅尔倒谱系数和伽马频率倒谱系数融合的语种识别方法。首先提取语音的梅尔倒谱系数和伽马频率倒谱系数,并依据语种识别中的贡献度对特征进行筛选;接着将特征映射在由梅尔域-伽马域组成的空间坐标系中,以得到梅尔伽马倒谱系数(MGCC);最后,将特征输入深度神经网络中进行语种识别。实验结果表明,所提方法的识别准确率和速度远高于使用单一声学特征及其他语种特征的方法。在纯净环境下,所提方法的语种识别准确率可以达到99.38%,在-5 dB低信噪比环境下也可达到89%以上。这充分证明了所提方法的有效性和鲁棒性。To solve the issue of low accuracy of language identification in a noisy environment,a language identification method is proposed by combining Mel-scale frequency cepstral coefficients and Gammatone frequency cepstral coefficients.First,the Mel-scale frequency cepstral coefficients and Gammatone frequency cepstral coefficients of speech are extracted,and the feature dimensions are screened based on the language contribution.Then,the feature is mapped in the spatial coordinate system composed of the Mel domain-Gammatone domain to obtain the Mel Gammatone cepstral coefficients(MGCC).Finally,the fusion feature is input into the deep bottleneck network.The experimental results show that the identification accuracy and speed of the proposed method are much higher than those of the single acoustic feature and other features.The accuracy can reach 99.38%in the clean corpus,and can still reach more than 89%under the-5 dB environment,which fully proves the effectiveness and robustness of the proposed method.
关 键 词:语种识别 融合特征 深度神经网络 低信噪比 鲁棒性
分 类 号:TN912.34[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.16.143.199