基于概率统计直方图的压缩域说话人识别

Compressed-Domain Automatic Speaker Recognition Based on Probabilistic Stochastic Histogram

出　　处：《数据采集与处理》2009年第5期594-599,共6页Journal of Data Acquisition and Processing

基　　金：国家"八六三"高技术研究发展计划(2006AA01Z146)资助项目

摘　　要：压缩域说话人识别算法(Compressed-domain automatic speaker recognition,CD-ASR)即从压缩语音数据中直接提取压缩参数进行说话人识别,无需参数译码和波形合成。本文提出了基于概率统计直方图的VoIP压缩域说话人识别算法,包括矢量量化统计直方图和高斯混合模型统计直方图两种方法。在给出了G.729,G.723.1(6.3 kb/s),G.723.1(5.3 kb/s)压缩码流的压缩域特征提取方案后,分别以矢量量化统计直方图和高斯混合模型统计直方图作为识别模型进行说话人识别。实验结果表明,概率统计直方图法比在压缩码流中提取同样识别参数的GMM模型,识别率有很大提高。Compressed-domain automatic speaker recognition （CD-ASR） extracts features directly from the coded speech bit-stream to avoid decoding the parameters and resynthesizing the speech waveform. In this paper, a compressed-domain speaker recognition approach is pro- posed based on the probabilistic stochastic histogram. Firstly, the compressed-domain feature extraction schemes of G. 729,G. 723.1 （6.3 kb/s）, G723.1（5.3 kb/s） compressed bit streams are described. Then, the speaker recognition algorithms are presented based on vector quantization probabilistic stochastic histogram （VQPSH） and Gaussian mixture model probabilistic stochastic histogram（GMMPSH）. Experimental results show that the probabilistic stochastic histogram algorithm is superior to classical GMM when using the same compressed-domain feature extraction algorithms.

关键词：压缩域说话人识别矢量量化概率统计直方图高斯混合模型概率统计直方图

分类号：TN912.3[电子电信—通信与信息系统]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于概率统计直方图的压缩域说话人识别

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于概率统计直方图的压缩域说话人识别

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索