文本引导视频预测大模型的场景动态控制综述

A Review of Scene Dynamic Control in Text-Guided Video Prediction Large Models

作　　者：吴福祥程俊[1] WU Fuxiang;CHENG Jun(Shenzhen Institute of Advanced Technology,Chinese Academy of Sciences,Shenzhen 518055,China)

机构地区：[1]中国科学院深圳先进技术研究院,深圳518055

出　　处：《集成技术》2025年第1期9-24,共16页Journal of Integration Technology

基　　金：国家自然科学基金项目(U21A20487,62372440)。

摘　　要：近年来,生成式人工智能的快速发展使文本驱动的视频预测大模型成为学术界和工业界的研究热点。视频预测生成需处理时间维度的动态性和一致性,要求精准控制场景结构、主体行为、相机运动和语义表达。当前的主要挑战是如何精确控制视频预测中的场景动态,以实现高质量和语义一致的输出。针对此问题,一些研究者提出了相机控制增强、参考视频控制、语义一致性增强和主体特征控制增强等方法,旨在提升视频预测的生成质量,确保生成内容既符合历史条件,又满足用户需求。该文系统探讨了上述4个控制方法的核心思想、优缺点和未来发展方向。In recent years,the rapid development of generative AI has made text-driven video prediction large models a hot topic in academia and industry.Video prediction and generation should address temporal dynamics and consistency,requiring precise control of scene structures,subject behaviors,camera movements,and semantic expressions.One major challenge is accurately controlling scene dynamics in video prediction to achieve high-quality,semantically consistent outputs.Researchers have proposed key control methods,including camera control enhancement,reference video control,semantic consistency enhancement,and subject feature control improvement.These methods aim to improve generation quality,ensuring outputs align with historical context while meeting user needs.This paper systematically explores the core concepts,advantages,limitations,and future directions of these four control approaches.

关键词：文本驱动视频预测动态控制相机控制语义增强主体特征控制

分类号：TP391.7[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

文本引导视频预测大模型的场景动态控制综述

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

文本引导视频预测大模型的场景动态控制综述

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索