语音库裁剪的一种不定长递阶聚类方法  被引量:1

A Non-Uniform Clustering Synthesis Instances Pruning Approach for Corpus-Based TTS

在线阅读下载全文

作  者:张巍[1] 吴晓如[2] 刘江[2] 王仁华[3] 

机构地区:[1]中国海洋大学计算机科学系,山东青岛266100 [2]安徽中科大讯飞信息科技有限公司,合肥230088 [3]中国科学技术大学电子工程与信息科学系,合肥230027

出  处:《计算机学报》2007年第11期2017-2024,共8页Chinese Journal of Computers

基  金:国家自然科学基金(60602017);国家"八六三"高技术研究发展计划项目基金(2004AA114030)资助.~~

摘  要:大量使用不定长是大语料库语音合成质量的一个重要保证,而语音库裁剪方法通常会导致不定长的损失.针对这一关键性问题,该文构建了NuClustering-VPA算法:对不同粒度的不定长变体进行聚类,根据高阶聚类结果调整低阶变体的聚类,使得低阶聚类中心有所偏向.NuClustering-VPA算法保留了最重要的不定长,从而有效减小了裁剪对不定长的破坏.测听实验表明,利用NuClustering-VPA算法,即使在语音库裁减率为39.63%时,合成自然度下降较小,仍然保持在较高的水平.这一技术已被应用在科大讯飞公司的实际语音产品中.The employment of non-uniform does great help for Corpus-based TTS to synthesize high natural speech. But Tailoring TTS voice font, or pruning redundant synthesis instances, usually results in loss of non-uniform. In order to solve this problem, this paper proposes the algorithm named NuClustering-VPA. According to this algorithm, the high level non-uniforms containing same syllables are clustered to several centers, then the centers are projected to low level non-uniforms. Therefore, the centerrs projections can guide the clustering of low level nonuniforms. These series of processes avoid erasing or destroying those key non-uniforms for synthesis. In experiments, the naturalness scored by MOS does not severely degrade when reduction rate is above 39.63%. And this approach has been applied in software products of Ifytek Co. Ltd.

关 键 词:基于语料库的语音合成 语音库裁剪 语音库去冗余 可伸缩语音合成系统 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象