检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:方鹏[1,2,3] 李贤[1,3] 汪增福[1,2,3]
机构地区:[1]中国科学技术大学信息科学技术学院,安徽合肥230027 [2]中国科学院合肥智能机械研究所,安徽合肥230031 [3]语音及语言信息处理国家工程实验室,安徽合肥230027
出 处:《智能系统学报》2016年第1期55-60,共6页CAAI Transactions on Intelligent Systems
基 金:国家自然科学基金资助项目(61472393;613031350)
摘 要:语音转换是计算机听觉领域的热点问题之一,将歌声运用于语音转换是一种新的研究方向,同时拓宽了语音转换的应用范围。经典的高斯混合模型的方法在少量训练数据时会出现过拟合的现象,而且在转换时并未有效利用音乐信息。为此提出一种歌唱声音转换方法以实现少量训练数据时的音色转换,并且利用歌曲的基频信息提高转换歌声的声音质量。该方法使用核聚类和偏最小二乘回归进行训练得到转换函数,采用梅尔对数频谱近似(MLSA)滤波器对源歌唱声音的波形直接进行滤波来获得转换后的歌唱声音,以此提高转换歌声的声音质量。实验结果表明,在少量训练数据时,该方法在相似度和音质方面都有更好的效果,说明在少量训练数据时该方法优于传统的高斯混合模型的方法。Voice conversion is a popular topic in the field of computer hearing,and the application of singing voices to voice conversion is a relatively new research direction,which widens the application scope of voice conversion.When a training dataset is small,the conventional Gaussian mixture model( GMM) method may cause overfitting and insufficient utilization of music information. In this study,we propose a method for converting the voice timbre of a source singer into that of a target singer and employ fundamental frequency to improve the converted singing voice quality. We use kernel clustering and partial least squares regression to train the dataset,thereby obtaining the conversion function. To improve the converted singing voice quality,we applied the Mel log spectrum approximation( MLSA) filter,which synthesizes the converted singing voice by filtering the source singing waveform.Based on our experiment results,the proposed method demonstrates better voice similarity and quality,and therefore is a better choice than the GMM-based method when the training dataset is small.
关 键 词:计算机视觉 语音转换 歌唱声音 核聚类 偏最小二乘回归 高斯混合模型 MLSA
分 类 号:TN912.3[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.118.28.11