基于迁移学习的噪声鲁棒语音识别声学建模  被引量:5

Transfer learning for acoustic modeling of noise robust speech recognition

在线阅读下载全文

作  者:易江燕[1,2] 陶建华 刘斌[1] 温正棋 

机构地区:[1]中国科学院自动化研究所、模式识别国家重点实验室,北京100190 [2]中国科学院大学人工智能技术学院,北京100190 [3]中国科学院自动化研究所、中国科学院脑科学与智能技术研究中心,北京100190

出  处:《清华大学学报(自然科学版)》2018年第1期55-60,共6页Journal of Tsinghua University(Science and Technology)

基  金:国家”八六三”高技术项目(2015AA016305);国家自然科学基金面上项目(61425017,61403386);中国科学院战略性先导科技专项(GrantXDB02080006)

摘  要:为了提高噪声环境下语音识别系统的鲁棒性,提出了一种基于迁移学习的声学建模方法。该方法用干净语音的声学模型(老师模型)指导带噪语音的声学模型(学生模型)进行训练。学生模型在训练过程中,尽量使其逼近老师模型的后验概率分布。学生模型和老师模型间的后验概率分布差异通过相对熵(KL divergence)加以最小化。CHiME-2数据集上的实验结果表明,该方法的平均词错率(WER)比基线的绝对下降了7.29%,比CHiME-2竞赛第一名的绝对下降了3.92%。Speech recognition in noisy environments was improved by using transfer learning to train acoustic models. The training of an acoustic model trained with noisy data (student model) is guided by an acoustic model trained with clean data (teacher model). This training process forces the posterior probability distribution of the student model to be close to the teacher model by minimizing the Kullhack-Leibler (KL) divergence between the posterior probability distribution of the student model and that of the teacher model. Tests on the CHIME-2 dataset show that this method gives a 7.29% absolute average word error rate (WER) improvement over the baseline model and 3.92% absolute average WER improvement over the best CHIME-2 system.

关 键 词:鲁棒语音识别 声学模型 神经网络 迁移学习 

分 类 号:TP391.42[自动化与计算机技术—计算机应用技术] TP183[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象