基于VITS模型的藏语康巴方言语音合成研究  

在线阅读下载全文

作  者:王嘉文 高定国 尼琼[1,2] 巴果 

机构地区:[1]西藏大学信息科学技术学院,西藏拉萨850000 [2]西藏大学藏文信息技术创新人才培养示范基地,西藏拉萨850000

出  处:《电脑知识与技术》2024年第4期8-10,15,共4页Computer Knowledge and Technology

基  金:国家自然科学基金项目“敦煌藏文文献文本识别方法的研究”(62166038);四川省科技计划项目“涉藏网络舆情的洞察及正向引导关键技术研究”(2023YFQ0044);西藏大学研究生“高水平人才培养计划”项目“藏语三大方言语音合成系统的研究与实现”(2021-GSP-S126)。

摘  要:藏语康巴方言是一种分布在中国西南部的少数民族语言,数据量低且具有丰富的声调和声母变化,给语音合成带来了很大的挑战。目前,现有的藏语语音合成模型大多基于传统的声码器或神经网络架构,需要大量的标注数据和复杂的训练过程,而且合成效果不理想。文章通过改进VITS模型,使其运用于藏语语音合成,在一个小规模的藏语康巴方言语料库上训练了VITS模型。实验结果表明,VITS模型可以很好地应用于藏语康巴方言的语音合成,不仅可以保持语音的自然度和清晰度,还可以准确地反映语音的声调和声母变化。

关 键 词:VITS 藏语 康巴方言 语音合成 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象