检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:吴树兴[1] 张秀琴[1] Wu Shuxing;Zhang Xiuqin(Beijing Information Technology College,Beijing 100015,China)
机构地区:[1]北京信息职业技术学院
出 处:《邮电设计技术》2019年第8期70-73,共4页Designing Techniques of Posts and Telecommunications
基 金:北京市教育委员会科技计划(KM201410857001)
摘 要:在语音识别和语音合成大规模语料库的构建中,需要把较长内容的语音文件切分成一定字数要求的语音数据文件和对应的文本文件。一种有效的自动切分方法是通过对单字占用时间的预测和元音主体数目的统计来评估切分点的位置,实现对语音数据的自动切分。实验表明,使用该方法进行切分的一次成功率可以达到92.8%,参数适当调整后的二次成功率为96.3%。整个切分过程中,进行人工调整的工作量很小,适合快速构建大规模语料库。In the construction of large-scale corpus of speech recognition and speech synthesis,it is necessary to divide the audio files of longer content into audio data files and corresponding text files with a certain number of words.An effective automatic segmentation method is to calculate the position of the segmentation point by counting the time occupied by the word and the statistics of the number of vowel subjects,so as to realize automatic segmentation of the audio data.Experiments using this method for segmentation show that the first success rate can reach 92.8%,and the secondary success rate after proper adjustment of parameters is 96.3%.During the entire segmentation process,the amount of manual adjustment is small,which is suitable for the rapid construction of large-scale corpus.
分 类 号:TN912.3[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.195