📼ViD-GPT:把GPT风格自回归生成技术引入到视频生成的扩散模型

type
status
slug
summary
tags
category
icon
password
Date
notion image
ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models
论文:https://arxiv.org/abs/2406.10981v1代码:https://github.com/Dawn-LX/Causal-VideoGen
ViD-GPT 是一种创新的视频生成模型,将大型语言模型中的GPT(生成预训练变换器)风格自回归生成技术引入到视频扩散模型(VDMs)中,它由来自浙江大学、华为云、南洋理工大学和信也科技(Finvolution Group)的研究人员共同开发。
notion image
ViD-GPT的设计灵感来源于自然语言处理中的单向计算,模仿了大型语言模型在生成长文本序列时的效率和连贯性,这一方法的提出为长视频生成领域带来了重要的技术突破。
notion image
在实验中,ViD-GPT在两个公共数据集MSR-VTT和UCF-101上进行了评估,展现出了在长视频生成方面的卓越性能。与现有的视频扩散模型相比,ViD-GPT在定量和定性上都取得了最先进的结果。
技术解读
ViD-GPT 的核心在于通过因果生成和帧作为提示的机制来解决生成长期一致性长视频的难题。因果生成确保每个生成的帧仅依赖于其前面的帧,而帧作为提示则是通过将条件帧与待生成的噪声帧沿时间轴连接,以此作为生成未来帧的提示。
notion image
ViD-GPT 的特点是引入了kv-cache机制,这一机制在大型语言模型中已被广泛使用,用以消除重叠帧的冗余计算,显著提升了模型的推理速度。在自回归视频生成过程中,通过缓存关键的中间特征,避免了对已生成帧的重复计算,从而加快了视频生成的速度。此外,ViD-GPT在训练和推理阶段都采用了帧作为提示的方法,这不仅提高了视频内容的一致性,还增强了模型对长期依赖关系的捕捉能力。
ViD-GPT 的生成过程包括以下几个关键步骤:
  1. 模型架构:ViD-GPT基于空间-时间变换器(Spatial-temporal Transformer)构建,该架构由嵌入层、一系列空间-时间变换器块和最终的前馈网络(Feed-Forward Network, FFN)组成。嵌入层将潜在编码分割成不重叠的小块,并进行线性投影,同时加入空间和时间位置嵌入。
  1. 因果注意力机制:ViD-GPT引入了因果时间注意力机制,通过掩码(masking)操作确保每个帧只关注其前面的帧。这种设计模仿了自然语言处理中的单向计算,保证了生成过程的因果性。
  1. 训练阶段:在训练过程中,模型学习从带噪声的潜在序列中去除噪声。与传统的双向时间注意力不同,因果VDM(Causal Video Diffusion Model)单向地传播信息。为了改善长视频生成的质量,训练时会随机保留一些帧作为未噪声化的提示(prompt),并使用时间步嵌入t=0。
  1. 帧作为提示:在训练和推理阶段,将条件帧作为提示,与待生成的噪声帧沿时间轴连接。这种设计使得模型在生成过程中可以利用所有先前生成的帧作为上下文。
  1. kv-cache机制:为了提高推理速度,ViD-GPT引入了kv-cache机制,这在大型语言模型中已被广泛使用。通过缓存和重用先前计算的键(key)和值(value)特征,避免了对已生成帧的重复计算。
  1. 推理过程:在推理阶段,ViD-GPT自回归地生成视频。给定一个初始帧和之前生成的帧序列作为提示,模型逐步生成新的帧。通过使用kv-cache,模型可以高效地利用先前计算的信息,从而加快生成速度。
  1. 帧提示增强:为了增强帧提示的指导作用,ViD-GPT通过空间注意力层注入额外的参考信息,通过在空间维度上连接提示帧的子序列来增强关键(key)和值(value)。
  1. 循环位置嵌入:为了支持更长视频的生成并节省内存,ViD-GPT使用循环时间位置嵌入,当索引位置超过预定义长度L时,对嵌入进行循环移位操作。
通过这些步骤,ViD-GPT能够生成具有长期依赖性和时间一致性的高质量长视频,同时显著提高了生成过程的效率。
论文解读
本文介绍了一种名为ViD-GPT的新型视频生成模型,其主要内容概括如下:
  1. 摘要(Abstract):介绍了ViD-GPT模型,它通过引入GPT风格的自回归生成到视频扩散模型中,解决了生成长期一致性长视频的挑战。提出了因果生成和帧作为提示的机制,并通过kv-cache机制显著提升了推理速度。
  1. 引言(Introduction):讨论了文本到视频生成领域的现有成就和局限性,尤其是在生成长视频方面的挑战。
  1. 相关工作(Related Work)
      • 视频扩散模型(Video Diffusion Models):回顾了基于扩散方法的图像生成应用,并讨论了视频扩散模型的发展。
      • 长视频生成(Long Video Generation):探讨了通过扩展现有短VDMs来实现长视频生成的方法。
  1. 方法(Method)
      • 扩散模型的预备知识(Preliminaries and Problem Formulation):介绍了扩散模型的基本概念和自回归视频生成的问题定义。
      • 因果视频扩散模型(Causal Video Diffusion Models):详细描述了ViD-GPT的模型架构和因果注意力机制。
      • 训练阶段(Training with Frame as Prompt):解释了如何使用帧作为提示来训练模型。
      • 推理阶段(Inference Boosted with KV-cache):介绍了如何使用kv-cache机制来加速模型的推理过程。
  1. 实验(Experiments)
      • 实现细节(Implementation Details):提供了模型实现和训练的具体细节。
      • 短视频生成比较(Comparisons for Short Video Generation):将ViD-GPT与现有方法在短视频生成上进行了比较。
      • 长视频生成比较(Comparisons for Long Video Generation):评估了ViD-GPT在长视频生成上的性能。
      • 推理速度比较(Comparisons for Inference Speed):比较了ViD-GPT和其他基线方法的推理速度。
  1. 结论和局限性(Conclusion and Limitations):总结了ViD-GPT的主要贡献,并讨论了其局限性和潜在的应用领域。
  1. 附录(Appendix)
      • 更多实施细节(More Implementation Details):提供了模型结构和训练细节的额外信息。
      • FVD评估细节(Details of FVD Evaluations):介绍了Fréchet Video Distance (FVD)评估方法的细节。
      • 定性示例的连续帧(Consecutive Frames of Qualitative Examples):展示了ViD-GPT生成的连续帧的定性结果。
整体而言,这篇论文提出了一种结合了大型语言模型优势的视频生成模型,通过创新的因果生成和帧提示方法,有效地提高了长视频生成的质量和推理速度。
请扫码查看[ - ]DeepSeek“越狱”提示词
AI系统提示词
经典论文解读
开源代码仓库
<每日AI播客>