🤹‍♀️VideoLLaMA 2:提升视频理解与音频理解的多模态语言模型

type
status
slug
summary
tags
category
icon
password
Date
notion image
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
代码:https://github.com/DAMO-NLP-SG/VideoLLaMA2论文:https://arxiv.org/abs/2406.07476
VideoLLaMA 2 是由阿里巴巴达摩院的研究团队开发的视频大型语言模型(Video-LLMs),旨在提升视频和音频导向任务中的空间-时间建模和音频理解能力。该模型在前代产品 VideoLLaMA 的基础上,引入了特别设计的Spatial-Temporal Convolution(STC)连接器,这一创新的组件有效捕捉视频数据中复杂的空间和时间动态。此外,VideoLLaMA 2通过联合训练将音频分支整合进模型,增强了模型对多模态数据的深入理解,能够无缝融合音频线索。
VideoLLaMA 2 的成果是其在音频理解和音视频问题回答(AQA & OE-AVQA)基准测试中的合理改进,这些进步突出了模型在多模态理解方面的高级性能,为智能视频分析系统设定了新的标准,还体现了其在多模态数据分析上的广泛适用性和潜力。
技术解读
VideoLLaMA 2 的特点包括其双分支框架设计,这一设计允许视觉-语言分支和音频-语言分支独立操作,同时仅在大型语言模型内部发生跨模态交互。这种设计不仅保留了各个模态输入的完整性,还便于未来的扩展和适应。模型在多项选择视频问题回答(MC-VQA)、开放式视频问题回答(OE-VQA)和视频字幕生成(VC)任务上进行了全面评估,显示出与开源模型相比具有竞争力的结果,并在某些基准测试中接近一些专有模型,证明了其在多模态理解方面的优越性能。
notion image
VideoLLaMA 2 的处理过程涉及多个阶段,主要步骤如下:
  1. 视觉-语言分支(Vision-Language Branch):
      • 视频帧首先被编码成特征,通过视觉编码器(例如CLIP ViT-L/14)进行处理。
      • 采用一致的帧采样方法,从每个视频中提取固定数量的帧,并将每帧调整至统一的尺寸(例如336x336像素)。
      • 引入空间-时间卷积连接器(STC Connector),该连接器通过两个空间交互模块和一个空间-时间聚合模块来处理视频帧,有效保持空间-时间局部细节,同时减少视频令牌的数量。
  1. 音频-语言分支(Audio-Language Branch):
      • 音频信号首先被预处理成fbank频谱图,具有128个频率箱。
      • 集成了BEATs音频编码器,该编码器能够捕捉详细的音频特征和时间动态。
      • 通过多层感知器(MLP)块处理这些特征,以与大型语言模型的维度对齐,实现与视觉和声音模态的更协调理解。
  1. 联合训练(Joint Training):
      • 视频-语言分支和音频-语言分支在大型语言模型的辅助下进行联合训练,以实现高级的视听整合。
      • 训练过程中,视频编码器和音频编码器保持冻结状态,而优化器专注于调整音频/视频投影器和未冻结的语言模型。
  1. 生成响应(Generating Responses):
      • 在接收到文本提示后,预训练的大型语言模型(如Mistral-Instruct或Mixtral-Instruct)用于生成基于文本的响应。
      • 模型能够处理复杂的视频语言任务,从视频字幕生成到复杂问题回答,展示出对视频内容的深刻理解。
  1. 评估与优化(Evaluation and Optimization):
      • 通过在多个视频理解基准上进行评估,包括多项选择视频问题回答(MC-VQA)、开放式视频问题回答(OE-VQA)和视频字幕生成(VC)任务,来优化模型性能。
      • 评估使用定量指标和定性分析,以突出模型在处理复杂多模态数据方面的优势。
  1. 多阶段训练(Multi-Stage Training):
      • 包括预训练、指令调整和视听联合训练,使用不同的数据集来增强模型对视听数据的理解和交互能力。
VideoLLaMA 2 的处理和生成流程,使其在视频理解任务中表现出色,能够提供准确且具有上下文感知能力的回答。
论文解读
本文介绍了VideoLLaMA 2,这是一组为提升视频和音频导向任务中空间-时间建模和音频理解能力而设计的视频大型语言模型(Video-LLMs)。
以下是论文内容要点:
摘要(Abstract):
  • VideoLLaMA 2通过整合定制的空间-时间卷积(STC)连接器和音频分支,提高了视频数据的空间和时间动态捕捉能力,并通过联合训练丰富了模型的多模态理解能力。
1. 引言(Introduction):
  • 近年来,人工智能在图像识别和图像生成方面取得显著进展,但视频理解和生成领域仍处于起步阶段,视频包含时间动态和同步音频流,信息量丰富,但提取和解释有意义模式的挑战也相应增加。
2. 方法(Method):
  • VideoLLaMA 2保持了前一版本的视觉-语言分支和音频-语言分支的双分支框架设计原则,各自独立操作,通过模块化方式连接预训练的视觉和音频编码器到指令微调的大型语言模型。
3. 训练(Training):
  • 论文详细描述了视频-语言分支和音频-语言分支的训练过程,以及将两种模态整合的联合训练。
4. 实现(Implementation):
  • VideoLLaMA 2基于LLaVA 1.5库构建,使用了特定的视觉编码器和音频编码器,并未在预训练和微调期间进行超参数调整。
5. 模型评估(Model Evaluation):
  • 论文全面评估了VideoLLaMA 2与其他前沿模型在多个视频和音频理解基准上的性能,包括多项选择视频问题回答(MC-VQA)、开放式视频问题回答(OE-VQA)和视频字幕生成(VC)任务。
6. 案例(Cases):
  • 展示了VideoLLaMA 2在视频中心对话中的多模态指令跟随能力的几个案例,包括全局场景理解、时空定位感知、常识推理和时空细粒度识别。
7. 相关工作(Related Works):
  • 论文讨论了现有的视频-LLMs的组成,包括预训练视觉编码器、视觉-语言适配器和指令调整的语言解码器,并探讨了改进视频-LLMs设计的可能性。
8. 结论(Conclusion):
  • VideoLLaMA 2作为一套通用的视频大型语言模型,通过精心设计的STC连接器和联合训练的音频分支,在多个视频和音频导向任务中持续提高了多模态理解能力,并且在某些方面达到了专有模型的性能水平。
Meta的新AI模型基准测试有点误导性Reddit联手Google Gemini升级AI搜索工具,用户体验大提升!
热点追踪
论文解读
开源项目