检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:韦凤瑜 简志华[1] WEI Fengyu;JIAN Zhihua(School of communication Engineering,Hangzhou Dianzi University,Hangzhou Zhejiang 310018,China)
机构地区:[1]杭州电子科技大学通信工程学院,浙江杭州310018
出 处:《杭州电子科技大学学报(自然科学版)》2025年第1期44-52,共9页Journal of Hangzhou Dianzi University:Natural Sciences
基 金:国家自然科学基金项目(61201301)。
摘 要:为了解决转换模型训练时不稳定的问题,并提升非平行语料情况下的语音转换性能,提出了一种基于GP-MaskGAN模型的语音转换方法。该方法采用R1零中心梯度惩罚技术惩罚真实数据上的鉴别器,防止训练时远离纳什平衡,保证模型训练的稳定性;同时,采用时间掩码,从空帧的前后帧中获取有用信息,填补缺失的帧,避免了转换过程对语音时频结构的破坏,从而提高了对语音梅尔谱的转换性能。客观和主观评价实验结果都表明,与基准模型MaskCycleGAN-VC相比,该方法在四种转换情况下的梅尔倒谱距离(Mel-Cepstral Distortion, MCD)更低,平均主观意见分(Mean Opinion Score, MOS)和偏好性测试得分(ABX)都更高,而且模型训练过程的损失曲线也更加平稳。In order to solve the problem of unstable training for conversion model and improve the conversion performance under non-parallel speech corpora,a voice conversion method is proposed using GP-MaskGAN model.This method uses R1 zero-centered gradient penalties to punish discriminators on real data,which prevents training from staying away from Nash s balance and ensured the stability of model training.Meanwhile the proposed method utilizes time mask to obtain useful information from both the front and the rear frames of the empty frame to fill the lacking frames and avoid the destruction of the time-frequency structure during the conversion.Objective and subjective evaluation results show that compared with the baseline MaskCycleGAN-VC model,the proposed method has lower MCD values,higher MOS and ABX points,and the loss curve is also more stable.
关 键 词:语音转换 生成对抗网络 时间掩码 R1零中心梯度惩罚 梅尔谱转换
分 类 号:TN492[电子电信—微电子学与固体电子学]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.144.237.31