智能环境中音视频双模态的身份辨识  

Audio-visual bimodal speaker identification in a smart environment

在线阅读下载全文

作  者:陈雁翔[1] 刘鸣[2] 

机构地区:[1]合肥工业大学计算机与信息学院,安徽合肥230009 [2]伊利诺伊大学香槟分校电子计算机工程系,伊利诺伊州61801

出  处:《中国科学技术大学学报》2010年第5期486-490,共5页JUSTC

基  金:国家自然科学基金(60672120)资助

摘  要:首先描述了智能环境下一种基于语音和人脸图像的双模态的身份辨识系统;然后在基于语音的说话人辨识中采用改进的基于语音段的高斯混合模型,在基于人脸的身份辨识中利用K近邻法对整个视频序列而非单个静止图做判决;最后在评分层通过对双模态输出的评分进行规整和加权组合实现融合.实验表明,音视频双模态融合能有效提高身份辨识系统的正确率.A bimodal person identification system is described by combining speech and 2D face images in a smart environment. The audio only system was based on a newly proposed model-segment-based Gaussian Mixture Model. The visual only system was a face recognition module based on K-nearest neighbors classifier. Finally the audio-visual system fused the individual modalities at the scoring level through score normalization, modality weighting and combination. Experimental results indicate the effectiveness of the speaker modeling methods and the fusion scheme.

关 键 词:身份辨识 音视频 双模态融合 智能环境 

分 类 号:TN912.34[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象