基于概率统计直方图的压缩域说话人识别  

Compressed-Domain Automatic Speaker Recognition Based on Probabilistic Stochastic Histogram

在线阅读下载全文

作  者:屈丹[1] 闫红刚[1] 唐晖[1] 王炳锡[1] 

机构地区:[1]解放军信息工程大学信息工程学院,郑州450002

出  处:《数据采集与处理》2009年第5期594-599,共6页Journal of Data Acquisition and Processing

基  金:国家"八六三"高技术研究发展计划(2006AA01Z146)资助项目

摘  要:压缩域说话人识别算法(Compressed-domain automatic speaker recognition,CD-ASR)即从压缩语音数据中直接提取压缩参数进行说话人识别,无需参数译码和波形合成。本文提出了基于概率统计直方图的VoIP压缩域说话人识别算法,包括矢量量化统计直方图和高斯混合模型统计直方图两种方法。在给出了G.729,G.723.1(6.3 kb/s),G.723.1(5.3 kb/s)压缩码流的压缩域特征提取方案后,分别以矢量量化统计直方图和高斯混合模型统计直方图作为识别模型进行说话人识别。实验结果表明,概率统计直方图法比在压缩码流中提取同样识别参数的GMM模型,识别率有很大提高。Compressed-domain automatic speaker recognition (CD-ASR) extracts features directly from the coded speech bit-stream to avoid decoding the parameters and resynthesizing the speech waveform. In this paper, a compressed-domain speaker recognition approach is pro- posed based on the probabilistic stochastic histogram. Firstly, the compressed-domain feature extraction schemes of G. 729,G. 723.1 (6.3 kb/s), G723.1(5.3 kb/s) compressed bit streams are described. Then, the speaker recognition algorithms are presented based on vector quantization probabilistic stochastic histogram (VQPSH) and Gaussian mixture model probabilistic stochastic histogram(GMMPSH). Experimental results show that the probabilistic stochastic histogram algorithm is superior to classical GMM when using the same compressed-domain feature extraction algorithms.

关 键 词:压缩域说话人识别 矢量量化概率统计直方图 高斯混合模型概率统计直方图 

分 类 号:TN912.3[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象