富媒体环境下语音和文本内容的对齐研究  被引量:1

Research on the Alignment of Speech and Text Contents in Rich Media Environment

在线阅读下载全文

作  者:韦向峰[1] 袁毅[1] 张全[1] 池毓焕[1] WEI Xiangfeng;YUAN Yi;ZHANG Quan;CHI Yuhuan(Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China)

机构地区:[1]中国科学院声学研究所

出  处:《情报工程》2019年第2期17-27,共11页Technology Intelligence Engineering

基  金:富媒体数字出版内容组织与知识服务重点实验室开放基金项目(ZD2018-07/03):“面向语音与文本内容的富媒体关联研究与技术实现”

摘  要:语音媒体和文本媒体是富媒体中重要的两种媒体,本文试图解决富媒体内容关联中语音和文本的自动对应和关联问题。本文通过自动语音识别、语音纠错处理、文本相似度计算等技术和方法,把语音和文本的对齐问题转化为文本之间相似和对齐的问题,通过从语音到文本、从文本到语音两种应用场景,用实验证明了该方法的可行性和有效性。本文的语音文本对齐技术将是富媒体融合特别是语音媒体和文本媒体之间进行融合的重要支撑技术,同时也为文本媒体和语音媒体的进一步关联重组和应用提供坚实的技术基础。Speech medium and text medium are two important media in rich media environment.This paper tries to solve the problem of automatic correspondence and association between speech and text in rich media content association.This paper transforms the problem of alignment between speech and text into the problem of similarity and alignment between texts through automatic speech recognition,speech error correction and text similarity calculation.The feasibility and validity of this method are proved by experiments in two application scenarios,namely,from speech to text and from text to speech.The speech text alignment technology in this paper will be an important supporting technology for rich media integration,especially between speech media and text media.It will also provide a solid technical foundation for the further association,reorganization and application of text medium and speech medium.

关 键 词:富媒体 语音识别 锚点词 编辑距离 最长递增子序列 

分 类 号:TP37[自动化与计算机技术—计算机系统结构] TP391.1[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象