运用核聚类和偏最小二乘回归的歌唱声音转换  被引量:2

Conversion of singing voice based on kernel clustering and partial least squares regression

在线阅读下载全文

作  者:方鹏[1,2,3] 李贤[1,3] 汪增福[1,2,3] 

机构地区:[1]中国科学技术大学信息科学技术学院,安徽合肥230027 [2]中国科学院合肥智能机械研究所,安徽合肥230031 [3]语音及语言信息处理国家工程实验室,安徽合肥230027

出  处:《智能系统学报》2016年第1期55-60,共6页CAAI Transactions on Intelligent Systems

基  金:国家自然科学基金资助项目(61472393;613031350)

摘  要:语音转换是计算机听觉领域的热点问题之一,将歌声运用于语音转换是一种新的研究方向,同时拓宽了语音转换的应用范围。经典的高斯混合模型的方法在少量训练数据时会出现过拟合的现象,而且在转换时并未有效利用音乐信息。为此提出一种歌唱声音转换方法以实现少量训练数据时的音色转换,并且利用歌曲的基频信息提高转换歌声的声音质量。该方法使用核聚类和偏最小二乘回归进行训练得到转换函数,采用梅尔对数频谱近似(MLSA)滤波器对源歌唱声音的波形直接进行滤波来获得转换后的歌唱声音,以此提高转换歌声的声音质量。实验结果表明,在少量训练数据时,该方法在相似度和音质方面都有更好的效果,说明在少量训练数据时该方法优于传统的高斯混合模型的方法。Voice conversion is a popular topic in the field of computer hearing,and the application of singing voices to voice conversion is a relatively new research direction,which widens the application scope of voice conversion.When a training dataset is small,the conventional Gaussian mixture model( GMM) method may cause overfitting and insufficient utilization of music information. In this study,we propose a method for converting the voice timbre of a source singer into that of a target singer and employ fundamental frequency to improve the converted singing voice quality. We use kernel clustering and partial least squares regression to train the dataset,thereby obtaining the conversion function. To improve the converted singing voice quality,we applied the Mel log spectrum approximation( MLSA) filter,which synthesizes the converted singing voice by filtering the source singing waveform.Based on our experiment results,the proposed method demonstrates better voice similarity and quality,and therefore is a better choice than the GMM-based method when the training dataset is small.

关 键 词:计算机视觉 语音转换 歌唱声音 核聚类 偏最小二乘回归 高斯混合模型 MLSA 

分 类 号:TN912.3[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象