检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]清华大学计算机科学与技术系,清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心,信息技术研究院语音和语言技术中心,北京100084
出 处:《清华大学学报(自然科学版)》2013年第6期813-817,共5页Journal of Tsinghua University(Science and Technology)
基 金:国家自然科学基金项目(61271389);国家"九七三"重点基础研究发展计划(2013CB329302)
摘 要:对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。For Gaussian mixture model(GMM)-universal background model(UBM) based text-independent speaker recognition,the performance decreases significantly when the test speech is too short.Since the text information is helpful,a K-phoneme-class based multi-model method(KPCMMM) is developed using a phoneme class speech recognition stage and a phoneme class dependent multi-model speaker recognition stage,where K is the number of most likely phoneme classes to be used in the second stage.Expert-knowledge based and data-driven phoneme class definitions are compared with the performance as a function of K.Tests show that the data-driven phoneme class definition outperforms the expert-knowledge based definition,and that an appropriate K value can lead to much better performance.Compared with the baseline GMM-UBM system,this method can achieve a relative equal error rate(EER) reduction of 38.60% for text-independent speaker recognition with a length of less than 2 s of test speech.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.66