多模态大模型的文生视频 - 前瞻产业研究院

登录/注册购买服务

数据图表行业分析研究报告免费报告产业周报企业数据大屏产业链产业热力图

搜索

多模态大模型的文生视频

发布时间：2025-06-01

视频本质上是一系列图像的连续展示，图片生成是视频生成的基础。图片生成的主流技术即扩散模型同样也是视频生成的主流技术，目前主流的文生视频模型的技术路线为基于文生图模型，通过在时间维度加入卷积或注意力，在生成的关键帧基础上实现时序对齐得到视频。在此基础上，插帧+超分、初始噪声对齐、基于LLM增强描述等方法均有助于增强时序对齐能力，实现更高质量的视频生成。Zero-shot领域的一系列研究则能够实现无需训练，直接将图片生成模型转化为视频生成模型。

下载原图

相关报告：《2025-2030年全球及中国多模态大模型行业发展前景与投资战略规划分析报告》

相关图表推荐