视觉驱动的语音合成系统中唇形轮廓的正交变换描述  被引量:3

Lip contour description based on orthogonal transform in visual driven speech synthesis system

在线阅读下载全文

作  者:李刚[1] 王蒙军[1] 林凌[1] 曾锐利[1] 

机构地区:[1]天津大学精密仪器与光电子工程学院,天津300072

出  处:《光学精密工程》2007年第7期1117-1123,共7页Optics and Precision Engineering

基  金:天津大学985工程资助项目;国家自然科学基金项目(No.60674111)

摘  要:为了能够自动而且快速地获取唇读系统中所必需的唇形轮廓特征,提出了将正交压缩变换的方法用于唇形轮廓的特征提取,并对得到的唇形轮廓曲线进行了分析研究。通过离散傅里叶变换(DFT)和离散余弦变换(DCT)分别得到描述唇形轮廓特征的傅里叶描述子和离散余弦变换描述子,然后将两类描述子作为唇形轮廓的特征向量,采用隐马尔可夫模型(HMM)进行学习和识别。基于独立汉字发音的实验表明:在达到40%的识别率时,刻画唇形轮廓特征所需的离散余弦变换描述子数目为15个,傅里叶描述子数目为20个。在相同的识别效果时,刻画唇形轮廓特征所需的离散余弦变换描述子数目少于傅里叶描述子,可减少数据运算量和运算所需时间。In order to describe the lip contours in a lip reading system automatically and fleetly, orthogonal compression transformation was applied to the feature extraction of lip contours. Discrete Fourier Transform (DFT) and Discrete Cosine Transform (DCT) were used to get the descriptors of lip contours in the asymmetrical lip contour model. Then the Hidden Markov Model (HMM) was trained using two kinds of descriptors as the eigenvectors of lip contours. The experiments based on isolated Chinese words show that the number of DCT descriptors needed is 15, while the number of DFT descriptors is 20 at the same recognition rate of 40%. Experiments also show that the computing quantity and the consuming time are reduced obviously by the DCT at the same recognition rate.

关 键 词:非对称模型 唇形轮廓 边缘特征 傅里叶描述子 离散余弦变换描述子 隐马尔可夫模型(HMM) 

分 类 号:TN912.34[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象