一种基于多模态特征的新闻视频语义提取框架  被引量:3

News video semantic extraction framework based on multimodal information

在线阅读下载全文

作  者:闫建鹏[1] 封化民[1,2] 刘嘉琦[1] 

机构地区:[1]西安电子科技大学通信工程学院,西安710071 [2]北京电子科技学院,北京100070

出  处:《计算机应用研究》2012年第7期2725-2729,共5页Application Research of Computers

基  金:国家自然科学基金资助项目(60972139);北京市自然科学基金资助项目(4092041)

摘  要:为提高视频语义信息提取准确率,提出了一种基于多模态特征的新闻视频语义提取框架。在视频中提取主题字幕信息,对音频进行分类和语音识别,根据主题字幕信息借助搜索引擎得到与新闻视频相关的网页;最后利用网页文本对语音识别的结果进行纠错,从而通过视频字幕信息和语音脚本的跨模态融合提高视频语义提取的准确率。在中等规模的新闻视频(含新闻网页)库测试表明了该方法的有效性,经纠错后的语音识别准确率达到了65%左右。This paper proposed a framework to analyse video semantic based on multimodal information.Firstly,this method detected and extracted captions.Secondly,it classified audios and obtained scripts via speech recognition.Then according to the caption information it obtained Web pages related to the video with the aid of search engine.Finally,the result of speech recognition were corrected error by Web information.Thereby,caption and audio information were cross-modally integrated.The experimental result on a middle scale testing set shows that the framework is feasible,achieves the accuracy of about 65% by error correction.

关 键 词:多模态特征 语义分析 视频检索 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象