检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:常志 赵德新 CHANG Zhi;ZHAO De-xin(School of Computer Science and Engineering,Tianjin Key Laboratory of Intelligence Computing and Novel Software Technology,Tianjin University of Technology,Tianjin 300384,China)
机构地区:[1]天津理工大学,计算机科学与工程学院,天津市智能计算与软件新技术重点实验室,天津300384
出 处:《天津理工大学学报》2020年第6期17-23,共7页Journal of Tianjin University of Technology
基 金:国家自然科学基金(61202169).
摘 要:随着深度学习技术在计算机视觉领域与自然语言处理领域的突破性进展,图像描述和视频描述的跨模态研究不断涌现.由于视频的时序特征以及视频内容的多样性与复杂性,视频描述相对于图像描述来说具有更大的挑战.视频描述的方法可以归纳为两类:基于模板的方法和基于编码-解码的方法.本文将着重介绍采用深度学习技术的编码-解码方法,文章首先对模型结构的发展做了分析与比较,其次对现有的方法做了归纳与总结.接着,介绍了一些比较有影响力的数据集和评测标准,最后对尚未解决的关键问题与研究难点做了总结与介绍.As a new cross-model task which connects computer vision and natural language processing,video captioning has drawn wide attention from the research because of the breakthrough of deep learning technology.Due to the temporal characteristics of video and the diversity and complexity of video content,video description is more challenging than image description.Video captioning methods can be classified into two categories:generation-based method and encoder-decoder method.This survey focuses on the method of using the encoder-decoder framework based on deep learning approaches to generate the natural language description for video sequences.Firstly,this paper analyzes the model structure and summarizes existing methods;also introduces some the different dataset used for video captioning and various evaluation parameters used for measuring the performance of different video captioning models.Finally,the key technical problems in video captioning task are analyzed and prospected.
分 类 号:TP37[自动化与计算机技术—计算机系统结构] TP181[自动化与计算机技术—计算机科学与技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15