语音驱动虚拟说话人的自然头动生成  

Head motion generation for speech-driven talking avatar

在线阅读下载全文

作  者:李冰锋[1] 谢磊[1] 朱鹏程[1] 樊博[1] 

机构地区:[1]西北工业大学计算机学院,陕西省语音与图像信息处理重点实验室,西安710072

出  处:《清华大学学报(自然科学版)》2013年第6期898-902,共5页Journal of Tsinghua University(Science and Technology)

基  金:国家自然科学基金面上项目(61175018);陕西省自然科学基础研究计划(2011JM8009);霍英东基金项目(131059)

摘  要:从语音信号预测伴随头动时,基于隐Markov模型(hidden Markov model,HMM)的头动合成方法的效果依赖于头动模式的划分和头动模式的正确识别。该文尝试了不同头动模式划分方法的头动合成效果。由于语音和头动之间是非确定性的多对多的映射关系,很难用固定的类别描述清楚,因此该类方法的头动模式识别率不高,头动合成效果受限。该文尝试采用逆传播(back-propagation,BP)神经网络的非线性回归方法,通过学习语音与头动之间的映射关系,实现语音信号到头动参数之间的直接连续映射,避免了HMM方法中头动模式不明确、头动模式识别错误带来的负面影响。实验表明,基于BP神经网络的回归方法有效地提高了语音到头动预测的准确度和头动合成的自然度。This study describes methods for predicting head motion from acoustic speech.Current hidden Markov model(HMM)-based methods rely on definitions of typical head motion patterns and accurate recognition of these patterns.This study investigates the head motion prediction performance of various pattern definition strategies.The HMM method is less effective because the association between speech and the head gestures is essentially a nondeterministic,many-to-many mapping so the head motion pattern recognition accuracy is quite low.Therefore,this study treats the speech-to-head-motion mapping task as a regression problem.A back-propagation(BP) neutral network is used to seek a direct,continuous mapping from the acoustic speech to the head motion.Tests show that this neutral network approach significantly improves the head motion prediction accuracy and the naturalness of head movement of a talking avatar.

关 键 词:虚拟说话人 面部动画 头动生成 隐MARKOV模型 神经网络 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象