基于多音素类模型的文本无关短语音说话人识别  被引量:1

Phoneme class based multi-model method for text-independent short utterance speaker recognition

在线阅读下载全文

作  者:张陈昊[1] 郑方[1] 王琳琳[1] 

机构地区:[1]清华大学计算机科学与技术系,清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心,信息技术研究院语音和语言技术中心,北京100084

出  处:《清华大学学报(自然科学版)》2013年第6期813-817,共5页Journal of Tsinghua University(Science and Technology)

基  金:国家自然科学基金项目(61271389);国家"九七三"重点基础研究发展计划(2013CB329302)

摘  要:对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。For Gaussian mixture model(GMM)-universal background model(UBM) based text-independent speaker recognition,the performance decreases significantly when the test speech is too short.Since the text information is helpful,a K-phoneme-class based multi-model method(KPCMMM) is developed using a phoneme class speech recognition stage and a phoneme class dependent multi-model speaker recognition stage,where K is the number of most likely phoneme classes to be used in the second stage.Expert-knowledge based and data-driven phoneme class definitions are compared with the performance as a function of K.Tests show that the data-driven phoneme class definition outperforms the expert-knowledge based definition,and that an appropriate K value can lead to much better performance.Compared with the baseline GMM-UBM system,this method can achieve a relative equal error rate(EER) reduction of 38.60% for text-independent speaker recognition with a length of less than 2 s of test speech.

关 键 词:短语音说话人识别 语音识别 音素类多模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象