基于发音特征的音视频说话人识别鲁棒性的研究  被引量:3

Research on Robustness of Audio-Visual Speaker Recognition Based on Articulatory Features

在线阅读下载全文

作  者:陈雁翔[1] 刘鸣[2] 

机构地区:[1]合肥工业大学计算机与信息学院,安徽合肥230009 [2]伊利诺伊大学香槟分校电子计算机工程系,伊利诺伊州61801

出  处:《电子学报》2010年第12期2920-2924,共5页Acta Electronica Sinica

基  金:国家自然科学基金(No.60672120);安徽省优秀青年科技基金(No.10040606Y09)

摘  要:人类对语音的感知是多模态的,会同时受到听觉和视觉的影响.以语音及其视觉特征的融合为研究核心,依据发音机理中揭示的音视频之间非同步关联的深层次成因,采用多个发音特征的非同步关联,去描述表面上观察到的音视频之间的非同步,提出了一个基于动态贝叶斯网络的语音与唇动联合模型,并通过音视频双模态的多层次融合,实现了说话人识别系统鲁棒性的提高.音视频双模态数据库上的实验表明了,在不同语音信噪比的条件下多层次融合均达到了更好的性能.Speech perception of human is bimodal because of the simultaneous audible and visible influence.This paper investigates how to fuse speech and visual speech features.From research on articulatory mechanism,the apparently observed audio-visual asynchrony is represented by asynchronous articulatory feature streams.An audio-visual model composed of speech and lip-moving is proposed based on Dynamic Bayesian Network,and then the multi-level fusion is implemented to improve the robustness of speaker recognition system.The experiment for audio-visual bimodal corpus shows that the multi-level fusion can improve the performance at all levels of acoustic signal-to-noise ratio(SNR) from 0 to 30dB.

关 键 词:发音特征 音视频 说话人识别 动态贝叶斯网络 

分 类 号:TN912.34[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象