面向藏语语音合成的语音基元自动标注方法  被引量:6

Speech unit segmentation for Tibetan speech synthesis

在线阅读下载全文

作  者:徐世鹏[1] 杨鸿武[1] 王海燕[1] 

机构地区:[1]西北师范大学物理与电子工程学院,兰州730070

出  处:《计算机工程与应用》2015年第6期199-203,共5页Computer Engineering and Applications

基  金:国家自然科学基金(No.61263036);甘肃省杰出青年基金(No.1210RJDA007);甘肃省自然科学基金(No.1107RJZA112;No.1208RJYA078)

摘  要:在基于隐Markov模型(Hidden Markov Model,HMM)的统计参数藏语语音合成中引入了DAEM(Deterministic Annealing EM)算法,对没有时间标注的藏语训练语音进行自动时间标注。以声母和韵母为合成基元,在声母和韵母的声学模型的训练过程中,利用DAEM算法确定HMM模型的嵌入式重估的最佳参数。训练好声学模型后,再利用强制对齐自动获得声母和韵母的时间标注。实验结果表明,该方法对声母和韵母的时间标注接近手工标注的结果。对合成的藏语语音进行主观评测表明,该方法合成的藏语语音和手工标注声、韵母时间的方法合成的藏语语音的音质接近。因此,利用该方法可以在不需要声、韵母的时间标注的情况下建立合成基元的声学模型。This paper introduces a Deterministic Annealing Expectation Maximum(DAEM)algorithm into the HMM-based Tibetan speech synthesis to label the time boundary of speech synthesis unit for non-labeled training speech corpus automatically. The initial and the final are used as the speech synthesis units. The DAEM algorithm is used for determining the optimal parameters of the embedded re-evaluation during the model training. The boundaries of speech synthesis units are obtained by a force alignment in acoustic model training of speech synthesis unit. Tests show that the unit boundary obtained by the proposed method is close to the manually labeled boundary. Subjective evaluation on quality of synthesized speech shows that the synthesized Tibetan speech is also similar to the synthesized speech with manually labeled speech corpus.Therefore, proposed method can be used for training acoustic modes of Tibetan speech synthesis with non-labeled training speech corpus.

关 键 词:藏语语音合成 确定性退火期望值最大化(DAEM)算法 自动标注 时间标注 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象