检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:司玉景[1] 肖业鸣 徐及[1] 潘接林[1] 颜永红[1]
机构地区:[1]中国科学院声学研究所语言声学与内容理解重点实验室,北京100190
出 处:《自动化学报》2014年第12期2808-2814,共7页Acta Automatica Sinica
基 金:国家高技术研究发展计划(863计划)(2012AA012503);国家自然科学基金(10925419;90920302;61072124;11074275;11161140319;91120001;61271426);中国科学院战略性先导利技专项(XDA06030100;XDA06030500);中国利学院重点部岩项日(KGZD-EW-103-2)资助~~
摘 要:在资源相对匮乏的自动语音识别(Automatic speech recognition,ASR)领域,如面向电话交谈的语音识别系统中,统计语言模型(Language model,LM)存在着严重的数据稀疏问题,本文提出了一种基于等概率事件的采样语料生成算法,白动生成领域相关的语料,用来强化统计语言模型建模实验结果表明,加入本算法生成的采样语料可以缓解语言模型的稀疏性,从而提升整个语音识别系统的性能,在开发集上语言模型的困惑度相对降低7.5%,字错误率(Character error rate,CER)绝对降低0.2个点;在测试集上语言模型的困惑度相对降低6%,字错误率绝对降低0.4点.Data sparseness is a serious issue for language model (LM) in automatic speech recognition (ASR) towards resource-lack domains, e.g. the telephone conversation speech recognition task. In this paper, an event of equal probability based text corpus generation algorithm is proposed in order to alleviate the sparseness of language model. Experimental results show that 7.5 % relative reduction in perplexity and a 0.2 % absolute reduction in character error rate (CER) can be obtained on the develop set. And, a 6 % relative reduction in perplexity and a 0.4 % absolute reduction in CER can be obtained on the test set.
关 键 词:自动语音识别 资源匮乏 语言模型 等概率事件 语料生成算法
分 类 号:TN912.34[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.76