彭宇新

作品数:15被引量:155H指数:7
导出分析报告
供职机构:北京大学更多>>
发文主题:跨媒体视频视频检索技术媒体模态更多>>
发文领域:自动化与计算机技术电子电信更多>>
发文期刊:《计算机工程与应用》《电子学报》《中国科学基金》《中国图象图形学报》更多>>
所获基金:国家自然科学基金国家技术创新计划更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-10
视图:
排序:
文本到视频生成:研究现状、进展和挑战被引量:2
《电子与信息学报》2024年第5期1632-1644,共13页邓梓焌 何相腾 彭宇新 
国家自然科学基金(61925201,62132001,62272013)。
文本到视频生成旨在根据用户给定的文本描述生成语义一致、内容真实、时序连贯且符合逻辑的视频。该文首先介绍了文本到视频生成领域的研究现状,详细介绍了3类主流的文本到视频生成方法:基于循环网络与生成对抗网络(GAN)的生成方法,基于...
关键词:文本到视频生成 扩散模型 生成对抗网络 
跨模态目标重识别研究综述
《计算机科学》2024年第1期13-25,共13页崔振宇 周嘉欢 彭宇新 
国家自然科学基金(61925201,62132001)。
目标重识别(ReID)技术旨在匹配不同区域摄像头在不同时间拍摄到的同一目标,其核心是通过目标间的细粒度差异实现不同目标的有效区分。因此,目标重识别技术被广泛应用于安防布控、刑侦监控等领域并发挥了重要作用。传统的目标重识别技术...
关键词:计算机视觉 目标重识别 跨模态 细粒度特征 表征学习 
从ChatGPT到多模态大模型:现状与未来被引量:35
《中国科学基金》2023年第5期724-734,共11页李耕 王梓烁 何相腾 彭宇新 
国家自然科学基金项目(61925201,62132001,62272013)的资助。
2022年底,OpenAI发布的ChatGPT聊天机器人将人工智能对通用自然语言任务的理解与生成能力提升到新的高度,引发各界广泛关注。当前ChatGPT仅支持文本模态的交互,而真实世界的感知则依赖于图像、文本、视频、音频等多个模态的协同处理。...
关键词:ChatGPT 多模态分析 大语言模型 通用人工智能 多模态预训练 
《中国图象图形学报》多媒体智能专刊简介
《中国图象图形学报》2022年第9期2549-2550,共2页朱文武 黄庆明 黄华 蒋树强 彭宇新 刘青山 王井东 纪荣嵘 邓伟洪 方玉明 刘家瑛 韩向娣 
近年来,人工智能和高性能计算快速发展,大规模多媒体数据的智能应用需求日趋广泛,多媒体数据的融合、转换、理解、搜索、推理与推荐等方向的新问题也不断涌现,推动了多媒体智能处理与分析技术的迅速发展,在学术界和产业界均引起极大关...
关键词:多媒体 高性能计算 人工智能 处理与分析 智能应用 应用落地 前沿进展 数据集构建 
跨域和跨模态适应学习的无监督细粒度视频分类被引量:3
《软件学报》2021年第11期3482-3495,共14页何相腾 彭宇新 
国家自然科学基金(61925201,61771025)。
细粒度视频分类旨在识别粗粒度大类中的细粒度子类,是计算机视觉中一个极具挑战的任务.考虑到视频数据的标注成本巨大,而图像的标注成本相对较小,且细粒度图像分类已经取得了较为显著的进展,一个自然的想法是不用标注,以无监督的方式将...
关键词:细粒度视频分类 无监督辨识适应网络 域差异 模态差异 域适应 
跨媒体深层细粒度关联学习方法被引量:13
《软件学报》2019年第4期884-895,共12页卓昀侃 綦金玮 彭宇新 
国家自然科学基金(61771025;61532005)~~
随着互联网与多媒体技术的迅猛发展,网络数据的呈现形式由单一文本扩展到包含图像、视频、文本、音频和3D模型等多种媒体,使得跨媒体检索成为信息检索的新趋势.然而,"异构鸿沟"问题导致不同媒体的数据表征不一致,难以直接进行相似性度量...
关键词:跨媒体检索 5种媒体 细粒度信息挖掘 跨媒体循环神经网络 跨媒体联合关联约束 
多媒体内容理解的研究现状与展望被引量:34
《计算机研究与发展》2019年第1期183-208,共26页彭宇新 綦金玮 黄鑫 
国家自然科学基金项目(61771025;61532005)~~
随着多媒体和网络技术的迅猛发展,海量的图像、视频、文本、音频等多媒体数据快速涌现.这些不同媒体的数据在形式上多源异构,语义上相互关联.认知科学研究表明,人脑生理组织结构决定了其对外界的感知和认知过程是跨越多种感官信息的融...
关键词:多媒体内容理解 图像细分类与检索 视频分类与目标检测 跨媒体检索 视觉描述与生成 视觉问答 
面向跨媒体检索的层级循环注意力网络模型被引量:5
《中国图象图形学报》2018年第11期1751-1758,共8页綦金玮 彭宇新 袁玉鑫 
国家自然科学基金项目(61771025;61532005)~~
目的跨媒体检索旨在以任意媒体数据检索其他媒体的相关数据,实现图像、文本等不同媒体的语义互通和交叉检索。然而,"异构鸿沟"导致不同媒体数据的特征表示不一致,难以实现语义关联,使得跨媒体检索面临巨大挑战。而描述同一语义的不同媒...
关键词:跨媒体检索 注意力机制 循环神经网络 关联学习 语义辨识 
前言
《计算机研究与发展》2014年第9期1889-1890,共2页史忠植 张长水 邓立 陈松灿 张军 彭宇新 
深度学习是机器学习研究中的一个新的领域,其核心思想在于模拟人脑的层级抽象结构,通过无监督的方式分析大规模数据,发掘大数据中蕴藏的有价值信息.深度学习应大数据而生,给大数据提供了一个深度思考的大脑.深度学习是一种研究信...
关键词:机器学习 大规模数据 抽象结构 获取方法 数据提供 输入输出 深层结构 信念网络 
基于颜色聚类和多帧融合的视频文字识别方法被引量:22
《软件学报》2011年第12期2919-2933,共15页易剑 彭宇新 肖建国 
国家自然科学基金(60873154;61073084);国家发改委资助项目([2010]3044)
提出一种基于颜色聚类和多帧融合的视频文字识别方法,首先,在视频文字检测模块,综合考虑了文字区域的两个显著特征:一致的颜色和密集的边缘,利用近邻传播聚类算法,根据图像中边缘颜色的复杂程度,自适应地把彩色边缘分解到若干边缘子图中...
关键词:视频文字识别 基于颜色的聚类 多帧融合 视频检索 噪声去除 
检索报告 对象比较 聚类工具 使用帮助 返回顶部