检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西北工业大学计算机学院,陕西省语音与图像信息处理重点实验室,西安710129
出 处:《清华大学学报(自然科学版)》2013年第6期903-907,共5页Journal of Tsinghua University(Science and Technology)
基 金:国家自然科学基金项目(61175018);陕西省自然科学研究计划(2011JM8009);霍英东基金项目(131059)
摘 要:语音模式发现是从语音流中检测出重复出现的音节、词或短语等语音单元的任务。该文基于分段动态时间规整(segmental dynamic time warping,SDTW)算法,尝试直接在中文语料上进行语音模式发现。Mel频率倒谱系数(Mel frequency cepstral coefficient,MFCC)特征在衡量两个语音片段声学相似度上不够鲁棒,特别是针对多说话人语料,语音模式发现的效果大打折扣。该文尝试了基于音素后验概率(posteriorgram)的特征表示方法。实验表明:在多说话人和单说话人的语料上,音素后验特征均可以得到比MFCC更好的效果。该文尝试了用词边界确定分段进行语音模式发现,这种设置可以看作基于SDTW进行模式发现的效果上限。实验表明:在预知词边界的情况下,效率和正确率都得到了明显提升。Speech pattern discovery aims to identify repeated patterns(e.g.,word-like units) from speech.This study analyzes speech patterns in a Mandarin speech corpus using segmental dynamic time warping(SDTW).Mel frequency cepstral coefficients(MFCCs) have not been effective for pattern discovery in multi-speaker conditions.The phoneme posteriorgram features are used here in a template-based method.Tests show that phoneme posteriorgram is significantly better than MFCCs for both single-and multi-speaker conditions.The performance upper-bound of SDTW is also investigated when boundary information is available with the segments divided by word boundaries.The results show that the boundaries significantly improve the pattern discovery in terms of both accuracy and efficiency.
关 键 词:语音模式发现 后验特征 动态时间规整 分段动态时间规整
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15