检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西安电子科技大学通信工程学院,西安710071 [2]北京电子科技学院,北京100070
出 处:《计算机应用研究》2012年第7期2725-2729,共5页Application Research of Computers
基 金:国家自然科学基金资助项目(60972139);北京市自然科学基金资助项目(4092041)
摘 要:为提高视频语义信息提取准确率,提出了一种基于多模态特征的新闻视频语义提取框架。在视频中提取主题字幕信息,对音频进行分类和语音识别,根据主题字幕信息借助搜索引擎得到与新闻视频相关的网页;最后利用网页文本对语音识别的结果进行纠错,从而通过视频字幕信息和语音脚本的跨模态融合提高视频语义提取的准确率。在中等规模的新闻视频(含新闻网页)库测试表明了该方法的有效性,经纠错后的语音识别准确率达到了65%左右。This paper proposed a framework to analyse video semantic based on multimodal information.Firstly,this method detected and extracted captions.Secondly,it classified audios and obtained scripts via speech recognition.Then according to the caption information it obtained Web pages related to the video with the aid of search engine.Finally,the result of speech recognition were corrected error by Web information.Thereby,caption and audio information were cross-modally integrated.The experimental result on a middle scale testing set shows that the framework is feasible,achieves the accuracy of about 65% by error correction.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.104