快速准确的自动音乐/语音分段方法  被引量:2

Fast and precise automatic music/speech segmentation

在线阅读下载全文

作  者:万玉龙[1] 周若华[1] 颜永红[1] 

机构地区:[1]中国科学院声学研究所,语言声学与内容理解重点实验室,北京100190

出  处:《清华大学学报(自然科学版)》2013年第6期878-882,共5页Journal of Tsinghua University(Science and Technology)

基  金:国家自然科学基金项目(10925419;90920302;61072124;11074275;11161140319;91120001;61271426);中国科学院战略性先导科技专项(XDA06030100;XDA06030500);国家"八六三"高技术项目(2012AA012503);中科院重点部署项目(KGZD-EW-103-2)

摘  要:自动音乐/语音分段是语音识别技术的重要部分。该文采用回声器时频分析计算平均能量谱及定长片段的优化短时低能量比,用Bayes分类器判定类型,并根据内容连续性对分段结果修正;最后采用振幅包络匹配滤波器求所有起始点,对分段结果进一步优化。实验基于多语种电视电台录音和国内电话录音数据展开,结果显示该方法的性能FMeasure可达0.987,较已有分类系统性能有大幅提升,同时处理速度也有大幅度改进。This article describes a fast and robust method for automatic music/speech classification and segmentation.A resonator time-frequency image(RTFI) is used to represent the average energy spectrum of the input data with the modified short-time low energy ratios then extracted for each constant length segment.Then,the system uses the Bayesian maximum-a-posteriori(MAP) classifier to decide the audio class of each segment and refine the classification results based on the fact that the audio types are continuous over a short time.An onset detection method is then used to rectify the beginnings and ends of each segment.The system is evaluated using recordings from multi-language radio and television shows and Chinese telephone calls.Tests show that the system outperforms the state-of-art methods with an FMeasure of up to 0.987 and much faster processing speed.

关 键 词:音乐 语音分段 回声器时频分析(RTFI) 优化短时低能量比 起始点侦测 

分 类 号:TP391.4[自动化与计算机技术—计算机应用技术] TP391.3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象