🔯LanguageBind:通过基于语言的语义对齐将视频语言预训练扩展到N模态

type
status
slug
summary
tags
category
icon
password
Date
😮 亮点
💡 高性能,但无需中间模式
LanguageBind 是一种以语言为中心的多模态预训练方法,以语言作为跨不同模态的绑定,因为语言模态已经得到充分探索并包含丰富的语义。
  • 下面的第一张图展示了 LanguageBind 的架构。LanguageBind 可以轻松扩展到分割、检测任务,甚至可能扩展到无限的模态。
⚡️ 多模式、完全一致且海量的数据集
我们提出VIDAL-10M,即包含视频红外深度音频及其对应语言的1000 万个数据,这极大地扩展了视觉模式之外的数据。
  • 第二张图展示了我们提出的 VIDAL-10M 数据集,其中包括五种模式:视频、红外、深度、音频和语言。
🔥 多视角增强描述训练
我们对语言进行了多视角增强。我们生成了结合元数据空间时间的多视角描述,从而大大增强了语言的语义信息。此外,我们还使用 ChatGPT 进一步增强了语言,为每种模态对齐语言创建了良好的语义空间。
notion image
notion image
🤗 演示
  • 本地演示。
    • 强烈建议您试用我们的网络演示,它包含了 LanguageBind 目前支持的所有功能。
  • 在线演示。在线演示
    • 我们在 Huggingface Spaces 中提供
      。在此演示中,您可以计算模态与语言的相似度,例如音频到语言、视频到语言以及深度到图像。
notion image
🚀 主要结果
视频语言
LanguageBind在四个数据集上实现了最先进的 (SOTA) 性能,* 捐献了完全调优的结果。
notion image
多种模式
视频语言、红外语言、深度语言和音频语言零样本分类,* 捐赠了充分调优的结果。
notion image
我们报告文本转音频的结果以供检索,* 捐赠完整调整的结果。
notion image
紧急结果
notion image
🛠️ 要求和安装
  • Python >= 3.8
  • Pytorch >= 1.13.1
  • CUDA 版本 >= 11.6
  • 安装所需的软件包:
🐳 模范动物园
表中的名称代表不同的编码器型号。例如,LanguageBind/LanguageBind_Video_FT代表完全微调版本,而LanguageBind/LanguageBind_Video代表 LoRA 调优版本。
您可以在推荐的API用法中自由替换它们。我们建议使用完全微调的版本,因为它提供更强大的性能。
情态
LoRA调整
微调
视频
声音的
深度
-
热的
-
版本
调优
模型大小
帧数
高频链路
MSR-山地车
迪德莫
活动网
MSVD
LanguageBind_Video
洛拉
大的
8
42.6
37.8
35.1
52.2
LanguageBind_Video_FT
全调音
大的
8
42.7
38.1
36.9
53.5
LanguageBind_Video_V1.5_FT
全调音
大的
8
42.8
39.7
38.4
54.1
LanguageBind_Video_V1.5_FT
全调音
大的
12
即将推出
LanguageBind_Video_Huge_V1.5_FT
全调音
巨大的
8
44.8
39.9
41.0
53.7
LanguageBind_Video_Huge_V1.5_FT
全调音
巨大的
12
即将推出
🤖 API
我们开源所有模态预处理代码。如果您想从 Huggingface 或本地的模型中心加载模型(例如LanguageBind/LanguageBind_Thermal),您可以使用以下代码片段!
多模态绑定推理
我们在资产中提供了一些示例数据集,以便快速了解 languagebind 的工作原理。
然后返回以下结果。
紧急零射击
由于 languagebind 将各个模态绑定在一起,我们还发现了紧急零样本。它使用起来非常简单。
然后,你会得到:
X 语言任务的不同分支
此外,LanguageBind 可以分解为不同的分支来处理不同的任务。请注意,我们不训练 Image,它只是从 OpenCLIP 初始化。
热的
深度
视频
声音的
图像
请注意,我们的图像编码器与 OpenCLIP 相同。不像其他模态那样精细调整。
💥 VIDAL-10M
数据集位于DATASETS.md中。
🗝️ 训练与验证
训练和验证说明位于TRAIN_AND_VALIDATE.md中。
👍 致谢
  • CLIP4Clip
    • 一个开源的视频文本检索框架。
  • sRGB-TIR
    • 一个用于生成红外(热)图像的开源框架。
  • GLPN
    • 一个生成深度图像的开源框架。
🔒 许可证
✏️ 引用
如果您发现我们的论文和代码对您的研究有用,请考虑给出星星⭐和引用📝。
✨ 明星历史
notion image
 
LanguageBind
PKU-YuanGroupUpdated Jun 4, 2024
OV-Watch 开源智能手表开源视频模型Open Sora