基于GP-MaskGAN模型的语音转换方法  

A voice conversion method based on GP-MaskGAN model

作  者:韦凤瑜 简志华[1] WEI Fengyu;JIAN Zhihua(School of communication Engineering,Hangzhou Dianzi University,Hangzhou Zhejiang 310018,China)

机构地区:[1]杭州电子科技大学通信工程学院,浙江杭州310018

出  处:《杭州电子科技大学学报(自然科学版)》2025年第1期44-52,共9页Journal of Hangzhou Dianzi University:Natural Sciences

基  金:国家自然科学基金项目(61201301)。

摘  要:为了解决转换模型训练时不稳定的问题,并提升非平行语料情况下的语音转换性能,提出了一种基于GP-MaskGAN模型的语音转换方法。该方法采用R1零中心梯度惩罚技术惩罚真实数据上的鉴别器,防止训练时远离纳什平衡,保证模型训练的稳定性;同时,采用时间掩码,从空帧的前后帧中获取有用信息,填补缺失的帧,避免了转换过程对语音时频结构的破坏,从而提高了对语音梅尔谱的转换性能。客观和主观评价实验结果都表明,与基准模型MaskCycleGAN-VC相比,该方法在四种转换情况下的梅尔倒谱距离(Mel-Cepstral Distortion, MCD)更低,平均主观意见分(Mean Opinion Score, MOS)和偏好性测试得分(ABX)都更高,而且模型训练过程的损失曲线也更加平稳。In order to solve the problem of unstable training for conversion model and improve the conversion performance under non-parallel speech corpora,a voice conversion method is proposed using GP-MaskGAN model.This method uses R1 zero-centered gradient penalties to punish discriminators on real data,which prevents training from staying away from Nash s balance and ensured the stability of model training.Meanwhile the proposed method utilizes time mask to obtain useful information from both the front and the rear frames of the empty frame to fill the lacking frames and avoid the destruction of the time-frequency structure during the conversion.Objective and subjective evaluation results show that compared with the baseline MaskCycleGAN-VC model,the proposed method has lower MCD values,higher MOS and ABX points,and the loss curve is also more stable.

关 键 词:语音转换 生成对抗网络 时间掩码 R1零中心梯度惩罚 梅尔谱转换 

分 类 号:TN492[电子电信—微电子学与固体电子学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象