-
多模态大模型的文生视频
发布时间:2025-06-01
视频本质上是一系列图像的连续展示,图片生成是视频生成的基础。图片生成的主流技术即扩散模型同样也是视频生成的主流技术,目前主流的文生视频模型的技术路线为基于文生图模型,通过在时间维度加入卷积或注意力,在生成的关键帧基础上实现时序对齐得到视频。在此基础上,插帧+超分、初始噪声对齐、基于LLM增强描述等方法均有助于增强时序对齐能力,实现更高质量的视频生成。Zero-shot领域的一系列研究则能够实现无需训练,直接将图片生成模型转化为视频生成模型。







