用于大规模语料库建设的一种汉语语句切分方法  

A Chinese sentence segmentation method for large-scale corpus construction

在线阅读下载全文

作  者:吴树兴[1] 张秀琴[1] Wu Shuxing;Zhang Xiuqin(Beijing Information Technology College,Beijing 100015,China)

机构地区:[1]北京信息职业技术学院

出  处:《邮电设计技术》2019年第8期70-73,共4页Designing Techniques of Posts and Telecommunications

基  金:北京市教育委员会科技计划(KM201410857001)

摘  要:在语音识别和语音合成大规模语料库的构建中,需要把较长内容的语音文件切分成一定字数要求的语音数据文件和对应的文本文件。一种有效的自动切分方法是通过对单字占用时间的预测和元音主体数目的统计来评估切分点的位置,实现对语音数据的自动切分。实验表明,使用该方法进行切分的一次成功率可以达到92.8%,参数适当调整后的二次成功率为96.3%。整个切分过程中,进行人工调整的工作量很小,适合快速构建大规模语料库。In the construction of large-scale corpus of speech recognition and speech synthesis,it is necessary to divide the audio files of longer content into audio data files and corresponding text files with a certain number of words.An effective automatic segmentation method is to calculate the position of the segmentation point by counting the time occupied by the word and the statistics of the number of vowel subjects,so as to realize automatic segmentation of the audio data.Experiments using this method for segmentation show that the first success rate can reach 92.8%,and the secondary success rate after proper adjustment of parameters is 96.3%.During the entire segmentation process,the amount of manual adjustment is small,which is suitable for the rapid construction of large-scale corpus.

关 键 词:元音主体 切分 语音合成 能熵比法 

分 类 号:TN912.3[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象