检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:石凡 杨鉴[1] SHI Fan;YANG Jian(School of Information Science and Engineering,Yunnan University,Kunming 650000,China)
机构地区:[1]云南大学信息学院,昆明650000
出 处:《信息技术》2024年第7期26-33,共8页Information Technology
基 金:国家自然科学基金资助项目(61961043)。
摘 要:针对当前的情感语音合成方法存在合成音频容易忽略文本语义信息的问题,在文本编码器中引入BERT预训练模型,辅助编码器捕获文本语义特征,并提出了语义及韵律特征嵌入方法。缅甸语情感语料的缺乏导致模型难以合成高质量情感语音,因此,文中通过微调各个网络模块参数的方法探索缅甸语情感语音合成模型的训练方法。实验结果表明,文中提出的特征嵌入方法以及训练方法在情感语料缺乏情况下仍能合成出高质量的情感语音,平均情感意见得分分别为4.16与4.18。Based on the problem that the current emotional speech synthesis method easily ignores the text semantic information,BERT pre-training model is introduced into the text encoder to assist the encoder to capture the text semantic features,and an embedding method of semantic and prosodic features is proposed.The lack of Myanmar language emotional corpus makes it difficult for the model to synthesize high-quality emotional speech,therefore,this paper explores the training method of Myanmar language emotional speech synthesis model by fine-tuning the parameters of each network module.The experiment results show that the feature embedding method and training method proposed in this paper can still synthesize high-quality emotional speech in the absence of emotional corpus,with an average emotional opinion score of 4.16 and 4.18,respectively.
分 类 号:TN912.33[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.177