基于深度学习的音视频语音识别技术回顾与展望被引量：1

机构地区：[1]陕西师范大学计算机科学学院,西安710119 [2]中国科学技术大学,合肥230026

出　　处：《人工智能》2024年第3期57-66,共10页Artificial Intelligence View

基　　金：中央高校基本科研业务费专项资金资助(GK202406005)。

摘　　要：音视频语音识别旨在基于语音以及对应唇形视频输入识别语音的文本内容信息。音视频语音识别技术在噪声场景下可以有效地提升语音识别的准确率,因而其具有广泛的应用前景。本文聚焦深度学习框架下的音视频语音识别技术,总结音视频语音识别的发展现状。具体而言,本文针对音视频语音识别的端到端框架、唇形表征提取、音视频融合模块的相关研究进行回顾。除此之外,本文还对音视频语音识别的学习范式,包括有监督学习、自监督学习,以及半监督学习的相关研究进行了总结。进一步地,本文对音视频语音识别当前面临的挑战进行分析,并对未来的研究方向进行展望。

关键词：语音识别音视频语音识别唇语识别音视频自监督学习

分类号：TN912[电子电信—通信与信息系统] TP391[电子电信—信息与通信工程]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于深度学习的音视频语音识别技术回顾与展望被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于深度学习的音视频语音识别技术回顾与展望 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于深度学习的音视频语音识别技术回顾与展望被引量：1