基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别被引量：3

End-to-end audiovisual speech recognition based on attention fusion of SDBN and BLSTM

作　　者：王一鸣陈恳[1] 萨阿卜杜萨拉木·艾海提拉木 WANG Yiming;CHEN Ken;ABUDUSALAMU Aihaiti(Institute of Communication Technology,Ningbo University,Ningbo 315211,China)

机构地区：[1]宁波大学信息科学与工程学院

出　　处：《电信科学》2019年第12期79-89,共11页Telecommunications Science

基　　金：国家自然科学基金资助项目(No.60972063);宁波市自然科学基金资助项目(No.2014A610065);宁波大学科研基金(理)/学科资助项目(No.XKXL1308)~~

摘　　要：提出一种端到端的视听语音识别算法。在该算法中,通过具有瓶颈结构的深度信念网络(deep belief network,DBN)中引入混合的l1/2范数和l1范数构建一种稀疏DBN(sparse DBN,SDBN)来提取稀疏瓶颈特征,从而实现对数据的特征降维,然后用双向长短期记忆网络(bidirectional long short-term memory,BLSTM)在时序上对特征进行模态处理,之后利用一种注意力机制将经过模态处理的唇部视觉信息和音频听觉信息进行自动对齐、融合,最后将融合的视听觉信息通过一个附加了Softmax层的BLSTM进行分类识别。实验表明,该算法能有效地识别视听觉信息,在同类算法中有很好的识别率和顽健性。An end-to-end audiovisual speech recognition algorithm was proposed. In algorithm, a sparse DBN was constructed by introducing mixed l1/2 norm and l1 norm into Deep Belief Network with bottleneck structure to extract the sparse bottleneck features, so as to reduce the dimension of data features, and then a BLSTM was used to model the feature in time series. Then, a attention mechanism was used to align and fuse the lip visual information and audio auditory information automatically. Finally, the fused audiovisual information was classified and identified by a BLSTM with a Softmax layer attached. Experiments show that the algorithm can effectively identify visual and auditory information, and has good recognition rate and robustness in similar algorithms.

关键词：端到端视听语音识别稀疏瓶颈特征注意力机制

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别 被引量：3

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别被引量：3