基于分段动态时间规整和后验特征的中文语音模式发现被引量：2

Mandarin speech pattern discovery using segmental dynamic time warping and posteriorgram features

机构地区：[1]西北工业大学计算机学院,陕西省语音与图像信息处理重点实验室,西安710129

出　　处：《清华大学学报（自然科学版）》2013年第6期903-907,共5页Journal of Tsinghua University(Science and Technology)

基　　金：国家自然科学基金项目(61175018);陕西省自然科学研究计划(2011JM8009);霍英东基金项目(131059)

摘　　要：语音模式发现是从语音流中检测出重复出现的音节、词或短语等语音单元的任务。该文基于分段动态时间规整(segmental dynamic time warping,SDTW)算法,尝试直接在中文语料上进行语音模式发现。Mel频率倒谱系数(Mel frequency cepstral coefficient,MFCC)特征在衡量两个语音片段声学相似度上不够鲁棒,特别是针对多说话人语料,语音模式发现的效果大打折扣。该文尝试了基于音素后验概率(posteriorgram)的特征表示方法。实验表明:在多说话人和单说话人的语料上,音素后验特征均可以得到比MFCC更好的效果。该文尝试了用词边界确定分段进行语音模式发现,这种设置可以看作基于SDTW进行模式发现的效果上限。实验表明:在预知词边界的情况下,效率和正确率都得到了明显提升。Speech pattern discovery aims to identify repeated patterns（e.g.,word-like units） from speech.This study analyzes speech patterns in a Mandarin speech corpus using segmental dynamic time warping（SDTW）.Mel frequency cepstral coefficients（MFCCs） have not been effective for pattern discovery in multi-speaker conditions.The phoneme posteriorgram features are used here in a template-based method.Tests show that phoneme posteriorgram is significantly better than MFCCs for both single-and multi-speaker conditions.The performance upper-bound of SDTW is also investigated when boundary information is available with the segments divided by word boundaries.The results show that the boundaries significantly improve the pattern discovery in terms of both accuracy and efficiency.

关键词：语音模式发现后验特征动态时间规整分段动态时间规整

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于分段动态时间规整和后验特征的中文语音模式发现被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于分段动态时间规整和后验特征的中文语音模式发现 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于分段动态时间规整和后验特征的中文语音模式发现被引量：2