低数据资源条件下基于Bottleneck特征与SGMM模型的语音识别系统  被引量:9

Bottleneck features and subspace Gaussian mixture models for low-resource speech recognition

在线阅读下载全文

作  者:吴蔚澜 蔡猛[3] 田垚[3] 杨晓昊[3] 陈振锋[1,2] 刘加[3] 夏善红[2] 

机构地区:[1]中国科学院大学,北京100190 [2]中国科学院电子学研究所传感技术国家重点实验室,北京100190 [3]清华大学电子工程系清华信息科学与技术国家实验室,北京100084

出  处:《中国科学院大学学报(中英文)》2015年第1期97-102,共6页Journal of University of Chinese Academy of Sciences

基  金:国家自然科学基金(61005019;61273268;61370034;90920302);北京市自然科学基金(KZ201110005005)资助

摘  要:语音识别系统需要大量有标注训练数据,在低数据资源条件下的识别性能往往不理想.针对数据匮乏问题,本文先研究子空间高斯混合声学模型通过参数共享减少待估计的参数规模,并使用基于最大互信息准则的区分型训练技术提高识别精度;而后在特征层面应用基于深度神经网络的Bottleneck特征来达到特征提取和降维的目的;最后将上述研究成果结合并构建了低资源条件下的语音识别系统.在国际标准的Open KWS 2013数据库上的实验结果表明,本文的技术能够有效改善低资源条件下的系统识别性能,相比基线系统有12%左右的词错误率降低.State-of-the-art speech recognition systems often depend on a lot of training data, but perform poorly when limited data is available. In this paper, we study speech recognition systems under low-resource condition. The subspace Gaussian mixture (SGMM) model is first applied to reduce the number of parameters. The model is further enhanced by discriminative training based on maximum mutual information criterion. The bottleneck features based on deep neural networks are then studied to make robust feature extraction. The SGMM model and the bottleneck features are finally combined to produce a novel speech recognition system under low-resource condition. On thestandard OpenKWS 2013 evaluation corpus, experimental results show the combination of the two technologies brings substantial relative improvement of about 12% over the baseline system.

关 键 词:语音识别 低资源 声学模型 声学特征 

分 类 号:TP391.42[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象