LanguageBind：通过基于语言的语义对齐将视频语言预训练扩展到N模态

type

status

slug

summary

category

icon

password

Date

😮 亮点

💡 高性能，但无需中间模式

LanguageBind 是一种以语言为中心的多模态预训练方法，以语言作为跨不同模态的绑定，因为语言模态已经得到充分探索并包含丰富的语义。

下面的第一张图展示了 LanguageBind 的架构。LanguageBind 可以轻松扩展到分割、检测任务，甚至可能扩展到无限的模态。

⚡️ 多模式、完全一致且海量的数据集

我们提出VIDAL-10M，即包含视频、红外、深度、音频及其对应语言的1000 万个数据，这极大地扩展了视觉模式之外的数据。

第二张图展示了我们提出的 VIDAL-10M 数据集，其中包括五种模式：视频、红外、深度、音频和语言。

🔥 多视角增强描述训练

我们对语言进行了多视角增强。我们生成了结合元数据、空间和时间的多视角描述，从而大大增强了语言的语义信息。此外，我们还使用 ChatGPT 进一步增强了语言，为每种模态对齐语言创建了良好的语义空间。

🤗 演示

本地演示。

强烈建议您试用我们的网络演示，它包含了 LanguageBind 目前支持的所有功能。

在线演示。在线演示

我们在 Huggingface Spaces 中提供

。在此演示中，您可以计算模态与语言的相似度，例如音频到语言、视频到语言以及深度到图像。

🚀 主要结果

视频语言

LanguageBind在四个数据集上实现了最先进的 (SOTA) 性能，* 捐献了完全调优的结果。

多种模式

视频语言、红外语言、深度语言和音频语言零样本分类，* 捐赠了充分调优的结果。

我们报告文本转音频的结果以供检索，* 捐赠完整调整的结果。

紧急结果

🛠️ 要求和安装

Python >= 3.8

Pytorch >= 1.13.1

CUDA 版本 >= 11.6

安装所需的软件包：

🐳 模范动物园

表中的名称代表不同的编码器型号。例如，LanguageBind/LanguageBind_Video_FT代表完全微调版本，而LanguageBind/LanguageBind_Video代表 LoRA 调优版本。

您可以在推荐的API用法中自由替换它们。我们建议使用完全微调的版本，因为它提供更强大的性能。

情态	LoRA调整	微调
视频	LanguageBind_Video	LanguageBind_Video_FT
声音的	LanguageBind_Audio	LanguageBind_Audio_FT
深度	LanguageBind_Depth	-
热的	LanguageBind_Thermal	-

版本	调优	模型大小	帧数	高频链路	MSR-山地车	迪德莫	活动网	MSVD
LanguageBind_Video	洛拉	大的	8	关联	42.6	37.8	35.1	52.2
LanguageBind_Video_FT	全调音	大的	8	关联	42.7	38.1	36.9	53.5
LanguageBind_Video_V1.5_FT	全调音	大的	8	关联	42.8	39.7	38.4	54.1
LanguageBind_Video_V1.5_FT	全调音	大的	12	即将推出	ㅤ	ㅤ	ㅤ	ㅤ
LanguageBind_Video_Huge_V1.5_FT	全调音	巨大的	8	关联	44.8	39.9	41.0	53.7
LanguageBind_Video_Huge_V1.5_FT	全调音	巨大的	12	即将推出	ㅤ	ㅤ	ㅤ	ㅤ

🤖 API

我们开源所有模态预处理代码。如果您想从 Huggingface 或本地的模型中心加载模型（例如LanguageBind/LanguageBind_Thermal），您可以使用以下代码片段！

多模态绑定推理

我们在资产中提供了一些示例数据集，以便快速了解 languagebind 的工作原理。

然后返回以下结果。

紧急零射击

由于 languagebind 将各个模态绑定在一起，我们还发现了紧急零样本。它使用起来非常简单。

然后，你会得到：

X 语言任务的不同分支

此外，LanguageBind 可以分解为不同的分支来处理不同的任务。请注意，我们不训练 Image，它只是从 OpenCLIP 初始化。

热的

深度

视频

声音的

图像

请注意，我们的图像编码器与 OpenCLIP 相同。不像其他模态那样精细调整。

💥 VIDAL-10M

数据集位于DATASETS.md中。

🗝️ 训练与验证

训练和验证说明位于TRAIN_AND_VALIDATE.md中。

👍 致谢

OpenCLIP

一个开源预训练框架。

CLIP4Clip

一个开源的视频文本检索框架。

sRGB-TIR

一个用于生成红外（热）图像的开源框架。

GLPN

一个生成深度图像的开源框架。

🔒 许可证

该项目的大部分内容是在LICENSE

文件中找到的 MIT 许可证下发布的。

该项目的数据集根据DATASET_LICENSE

文件中找到的 CC-BY-NC 4.0 许可证发布。

✏️ 引用

如果您发现我们的论文和代码对您的研究有用，请考虑给出星星⭐和引用📝。

✨ 明星历史

LanguageBind

PKU-YuanGroup • Updated Jun 4, 2024

🔯LanguageBind：通过基于语言的语义对齐将视频语言预训练扩展到N模态