检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学院声学研究所,语言声学与内容理解重点实验室,北京100190
出 处:《清华大学学报(自然科学版)》2013年第6期878-882,共5页Journal of Tsinghua University(Science and Technology)
基 金:国家自然科学基金项目(10925419;90920302;61072124;11074275;11161140319;91120001;61271426);中国科学院战略性先导科技专项(XDA06030100;XDA06030500);国家"八六三"高技术项目(2012AA012503);中科院重点部署项目(KGZD-EW-103-2)
摘 要:自动音乐/语音分段是语音识别技术的重要部分。该文采用回声器时频分析计算平均能量谱及定长片段的优化短时低能量比,用Bayes分类器判定类型,并根据内容连续性对分段结果修正;最后采用振幅包络匹配滤波器求所有起始点,对分段结果进一步优化。实验基于多语种电视电台录音和国内电话录音数据展开,结果显示该方法的性能FMeasure可达0.987,较已有分类系统性能有大幅提升,同时处理速度也有大幅度改进。This article describes a fast and robust method for automatic music/speech classification and segmentation.A resonator time-frequency image(RTFI) is used to represent the average energy spectrum of the input data with the modified short-time low energy ratios then extracted for each constant length segment.Then,the system uses the Bayesian maximum-a-posteriori(MAP) classifier to decide the audio class of each segment and refine the classification results based on the fact that the audio types are continuous over a short time.An onset detection method is then used to rectify the beginnings and ends of each segment.The system is evaluated using recordings from multi-language radio and television shows and Chinese telephone calls.Tests show that the system outperforms the state-of-art methods with an FMeasure of up to 0.987 and much faster processing speed.
关 键 词:音乐 语音分段 回声器时频分析(RTFI) 优化短时低能量比 起始点侦测
分 类 号:TP391.4[自动化与计算机技术—计算机应用技术] TP391.3[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.229