基于端点检测的蒙藏维语音片段数据集  被引量:1

A dataset of Mongolian,Tibetan and Uyghur speech fragments based on voice activity detection

在线阅读下载全文

作  者:韦向峰[1] 袁毅[1] 张全[1] 吐尔逊·卡得 Wei Xiangfeng;Yuan Yi;Zhang Quan;Tursun Kadir(Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,P.R.China;Xinjiang University of Finance&Economics,Urumqi 830012,P.R.China)

机构地区:[1]中国科学院声学研究所,北京100190 [2]新疆财经大学,乌鲁木齐830012

出  处:《中国科学数据(中英文网络版)》2019年第4期108-118,共11页China Scientific Data

基  金:中国科学院信息化专项科学大数据工程(一期),多民族语言资源特色数据库,XXH13505-03-203;中国科学技术信息研究所富媒体数字出版内容组织与知识服务重点实验室开放基金项目,面向语音与文本内容的富媒体关联研究与技术实现;国家社科基金项目,维吾尔语方言语音声学参数库研制,13BYY34

摘  要:在“中国少数民族地区蒙藏维言语录音2015数据集”的语音数据基础上,采用短时能量和短时过零率的双门限端点检测方法,得到一个句子语音的多个语音片段文件。本语音片段数据集包含蒙古语语音片段1657个、藏语语音片段666个、维吾尔语语音片段756个,数据总量大小约为111 MB。通过软件自动切分和语言专家的多重审核校对得到高质量的蒙藏维多语种的语音片段数据,可应用于少数民族的语音识别、端点检测、语音增强、语音合成和语言教学等领域。Based on the speech data in Mongolian,Tibetan,and Uyghur speech data from Chinese minority regions in 2015,we adopted a double threshold Voice Activity Detection method with short-time energy and short-time zero-crossing rate to obtain multiple voice fragments of each sentence speech.The result dataset contains 1657 Mongolian speech fragments,666 Tibetan speech fragments and 756 Uygur speech fragments.The total volume of the data is about 111 MB.Through automatic software segmentation and multiple auditing and proofreading by language experts,we have obtained high-quality voice fragment data of Mongolian,Tibetan and Uygur,which can be applied to minority speech recognition,voice activity detection,speech enhancement,speech synthesis and language teaching.

关 键 词:语音片段 端点检测 蒙古语 藏语 维吾尔语 语音数据 

分 类 号:TN912.3[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象