检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京市互联网信息办公室,北京100062 [2]讯飞智元信息科技有限公司,安徽合肥230088 [3]上海大学机电工程与自动化学院,上海200072
出 处:《计算机技术与发展》2016年第9期26-29,共4页Computer Technology and Development
基 金:北京市科技计划项目(Z141100006014002)
摘 要:语音活动检测(Voice Activity Detection,VAD)是语音前端特征处理的一个重要环节,它直接影响到后续处理的效果和效率。主流的模型VAD对训练数据的依赖度过高,在不同场景下需要重新训练不同的模型,这带来的数据标注的工作量是非常惊人的。一种自适应建模的VAD方法结合了能量VAD和模型VAD的优点,成功地解决了这个问题。它对每一条语音在线地训练出语音和非语音模型,根据每一帧在模型上的似然度得分给它们打上标签,经过平滑后就可以很好地找到语音的起点和终点。实验结果表明,该方法取得了很好的效果,F_1指标相比传统能量VAD提升了0.031,说话人分离错误率下降了0.45%。Voice Activity Detection (VAD) is an important part of speech front-end features processing which directly affects the effec- tiveness and efficiency of subsequent processing. Because of over-dependence on training data, the model VAD must train different model in different scenarios that will bring many tasks of data labeling. A VAD method of adaptive modeling, which combines with the advanta- ges of energy VAD and model VAD,solves the problem successfully. It trains speech model and non-speech model online to each voice and labels each frame according to the likelihood score of different model, then the endpoint of voice can be get. The experiments show thatthis method has achieved a good result. It makes the F1 parameters increased 0.031 and error rate of speaker separation decreased by 0.45% compared with the traditional energy VAD.
关 键 词:语音活动检测 能量VAD 模型VAD 自适应建模
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.140.196.3