👁️多模态端侧大模型MiniCPM-V

type
status
slug
summary
tags
category
icon
password
Date
notion image
MiniCPM-Llama3-V 2.5 🤗 🤖 | MiniCPM-V 2.0 🤗 🤖 | 技术博客
MiniCPM-V是一系列专为视觉语言理解而设计的端侧多模态 LLM(MLLM)。该模型以图像和文本作为输入,并提供高质量的文本输出。自 2024 年 2 月以来,我们已发布了 4 个版本的模型,旨在实现强大的性能和高效的部署。该系列中目前最值得关注的模型包括:
  • MiniCPM-Llama3-V 2.5 :🔥🔥🔥 MiniCPM-V 系列中最新、最强大的模型,共 8B 参数,整体性能超越 GPT-4V-1106、Gemini Pro、Qwen-VL-Max、Claude 3 等自研模型,增强 OCR 和指令跟踪能力,支持英、中、法、西、德等30 余种语言的多模态对话。借助量化、编译优化以及 CPU 和 NPU 上的多种高效推理技术,MiniCPM-Llama3-V 2.5 可高效部署在端侧设备上
  • MiniCPM-V 2.0:MiniCPM-V 系列中最轻量级的型号,2B 参数,整体性能超越 Yi-VL 34B、CogVLM-Chat 17B、Qwen-VL-Chat 10B 等较大型号,可以接受任意长宽比、最大 180 万像素(如 1344x1344)的图像输入,在场景文本理解方面达到与 Gemini Pro 相当的性能,在低幻觉率方面与 GPT-4V 相当。
消息
📌 已置顶
  • [2024.05.26] ⚙️ 我们注意到一些报告的问题,这些问题是由于 MiniCPM-Llama3-V 2.5 的自适应视觉编码与 Ollama 和 Llama.cpp 的原始固定编码实现相冲突而导致的。我们正在为 Ollama 和 Llama.cpp 重新实现此部分,以完全支持 MiniCPM-Llama3-V 2.5 的功能并修复此问题。此更新有望在一天内推出。敬请期待!
  • [2024.05.25] 🚀🚀🚀 MiniCPM-Llama3-V 2.5 现已支持Ollama
    • 以实现高效推理。立即试用!
  • [2024.05.23] 🔍 我们发布了 Phi-3-vision-128k-instruct 和 MiniCPM-Llama3-V 2.5 的全面比较,包括基准评估、多语言功能和推理效率 🌟📊🌍🚀。单击此处
    • 查看更多详细信息。
  • [2024.05.23] 🔥🔥🔥 MiniCPM-V 荣登 GitHub Trending 和 Hugging Face Trending 榜首!我们的演示由 Hugging Face Gradio 官方账号推荐,可在此处
    • 获取。快来尝试一下吧!
  • [2024.05.24] 我们发布 MiniCPM-Llama3-V 2.5 ggufllama.cpp
    • ,支持
      推理,在手机端提供 6~8 token/s 的流畅解码,赶快来试用吧!
  • [2024.05.20] 我们开源 MiniCPM-Llama3-V 2.5,它改进了 OCR 能力并支持 30+ 种语言,是首个达到 GPT-4V 级别性能的端侧 MLLM!我们提供高效的推理简单的微调
    • 。现在就试用吧!
  • [2024.04.23] MiniCPM-V-2.0 现已支持 vLLM!点击此处
    • 查看更多详情。
  • [2024.04.18] 我们创建了一个 HuggingFace 空间来托管 MiniCPM-V 2.0 的演示
  • [2024.04.17] MiniCPM-V-2.0现已支持部署WebUI Demo
  • [2024.04.12] 我们开源了 MiniCPM-V 2.0,在场景文本理解方面取得了与 Gemini Pro 相当的性能,在OpenCompass此处
    • 上的表现优于强大的 Qwen-VL-Chat 9.6B 和 Yi-VL 34B ,这是对 11 个流行基准的全面评估。点击
      查看 MiniCPM-V 2.0 技术博客。
  • [2024.03.01] MiniCPM-V 现在可以部署在 Mac 上了!
  • [2024.02.01] 我们开源MiniCPM-V及OmniLMM-12B,分别支持高效的端侧部署和强大的多模态能力。
内容
MiniCPM-Llama3-V 2.5
MiniCPM-Llama3-V 2.5是 MiniCPM-V 系列中的最新型号。该模型基于 SigLip-400M 和 Llama3-8B-Instruct 构建,共有 8B 个参数。与 MiniCPM-V 2.0 相比,它的性能有了显著提升。MiniCPM-Llama3-V 2.5 的显著特点包括:
  • 🔥领先的性能。MiniCPM -Llama3-V 2.5 在 OpenCompass 上取得了 65.1 的平均分,这是对 11 个流行基准的全面评估。仅使用 8B 个参数,它就超越了广泛使用的专有模型,如 GPT-4V-1106、Gemini Pro、Claude 3 和 Qwen-VL-Max,并且大大优于其他基于 Llama 3 的 MLLM。
  • 💪强大的 OCR 功能。MiniCPM -Llama3-V 2.5 可以处理任意长宽比、高达 180 万像素(例如 1344x1344)的图像,在 OCRBench 上获得 700+ 分,超越 GPT-4o、GPT-4V-0409、Qwen-VL-Max 和 Gemini Pro 等专有模型。根据最近的用户反馈,MiniCPM-Llama3-V 2.5 现已增强全文 OCR 提取、表格到 markdown 转换等高效用功能,并进一步增强了其指令跟踪和复杂推理能力,增强了多模态交互体验。
  • 🏆值得信赖的行为。 利用最新的RLAIF-V方法( RLHF-V [CVPR'24] 系列中的最新技术),MiniCPM-Llama3-V 2.5 表现出更值得信赖的行为。它在 Object HalBench 上的幻觉率为10.3%,低于 GPT-4V-1106(13.6%),在开源社区中达到了最佳水平。数据已发布
  • 🌏多语言支持。 得益于 Llama 3 强大的多语言能力和VisCPM的跨语言泛化技术,MiniCPM-Llama3-V 2.5 将其双语(中英)多模式能力扩展至30 多种语言,包括德语、法语、西班牙语、意大利语、韩语等。 支持所有语言
  • 🚀高效部署。MiniCPM -Llama3-V 2.5系统性地运用模型量化、CPU优化、NPU优化、编译优化等技术,实现端侧设备的高效部署。针对高通芯片的手机,我们首次将NPU加速框架QNN集成到llama.cpp中。经过系统性优化,MiniCPM-Llama3-V 2.5实现了端侧MLLM图像编码加速150倍语言解码加速3倍
评估
notion image
单击查看 TextVQA、DocVQA、OCRBench、OpenCompass、MME、MMBench、MMMU、MathVista、LLaVA Bench、RealWorld QA、Object HalBench 的结果。
多语言LLaVA Bench评估结果
notion image
例子
notion image
我们在终端设备上部署了MiniCPM-Llama3-V 2.5,演示视频是小米14 Pro无补丁版的原始录屏。
notion image
MiniCPM-V 2.0
点击查看MiniCPM-V 2.0更多详情
MiniCPM-V 2.0是一个高效的版本,具有良好的部署性能。该模型基于 SigLip-400M 和MiniCPM-2.4B构建,并通过感知器重采样器连接。我们的最新版本 MiniCPM-V 2.0 具有几个显著的特点。
  • 🔥最先进的性能。
    • MiniCPM-V 2.0在 7B 参数下的多个基准测试(包括 OCRBench、TextVQA、MME、MMB、MathVista 等)上取得了最佳性能。在对 11 个流行基准测试的全面评估中,它甚至超越了 OpenCompass 上强大的 Qwen-VL-Chat 9.6B、CogVLM-Chat 17.4B 和 Yi-VL 34B。值得一提的是,MiniCPM-V 2.0 表现出了强大的 OCR 能力在场景文本理解方面取得了与 Gemini Pro 相当的性能,并在 OCRBench 上取得了开源模型中的最佳性能。
  • 🏆值得信赖的行为。
    • 众所周知,LMM 容易产生幻觉,通常会生成与图像无关的文本。MiniCPM-V 2.0 是第一个通过多模态 RLHF 对齐的端侧 LMM,可实现可信行为(使用最近的RLHF-V [CVPR'24] 系列技术)。这使得该模型在防止Object HalBench 产生幻觉方面可以与 GPT-4V 相媲美。
  • 🌟任何比例的高分辨率图像。
    • MiniCPM-V 2.0 可以接受任意长宽比的 180 万像素(例如 1344x1344)图像。这可以更好地感知细粒度的视觉信息,例如小物体和光学字符,这是通过LLaVA-UHD的最新技术实现的。
  • ⚡️高效率。
    • MiniCPM-V 2.0 可高效部署在大多数 GPU 卡和个人电脑上甚至手机等终端设备上。对于视觉编码,我们通过感知器重采样器将图像表示压缩为更少的标记。这使得 MiniCPM-V 2.0即使在处理高分辨率图像时也能在推理过程中以有利的内存成本和速度运行。
  • 🙌双语支持。
    • MiniCPM-V 2.0支持强大的中英文双语多模态功能。这是通过跨语言泛化多模态功能实现的,这是VisCPM [ICLR'24]的一项技术。
例子
notion image
我们在终端设备上部署了MiniCPM-V 2.0,演示视频是小米14 Pro无补丁版的原始录屏。
notion image
 
旧模型
模型
介绍和指导
MiniCPM-V 1.0
OmniLMM-12B
在线演示
点击这里试用MiniCPM-Llama3-V 2.5MiniCPM-V 2.0的Demo 。
安装
  1. 克隆此存储库并导航到源文件夹
  1. 创建 conda 环境
  1. 安装依赖项
推理
模范动物园
模型
设备
记忆
描述
下载
Files
图形处理器
19 GB
最新版本,实现了最先进的端侧多模态性能。
🤗
https://github.com/OpenBMB/MiniCPM-V/raw/main/assets/modelscope_logo.png
中央处理器
5 GB
gguf 版本,更低的 GPU 内存和更快的推理速度。
🤗
https://github.com/OpenBMB/MiniCPM-V/raw/main/assets/modelscope_logo.png
图形处理器
8 GB
int4量化版本,更低的GPU内存使用率。
🤗
https://github.com/OpenBMB/MiniCPM-V/raw/main/assets/modelscope_logo.png
图形处理器
8 GB
精简版本,平衡性能和计算成本。
🤗
https://github.com/OpenBMB/MiniCPM-V/raw/main/assets/modelscope_logo.png
图形处理器
7 GB
最轻量版本,实现最快的推理。
🤗
https://github.com/OpenBMB/MiniCPM-V/raw/main/assets/modelscope_logo.png
多轮对话
请参考下面的代码来运行。
notion image
您将获得以下输出:
在 Mac 上进行推理
单击查看示例,在带有 MPS(Apple 硅片或 AMD GPU)的 💻 Mac 上运行 MiniCPM-Llama3-V 2.5。
使用命令运行:
手机端部署
MiniCPM-V 2.0 可以部署在 Android 操作系统的手机上。🚀 点击此处安装 apk。MiniCPM-Llama3-V 2.5 即将推出。
WebUI 演示
点击查看如何在不同设备上部署WebUI demo
使用 llama.cpp 进行推理
MiniCPM-Llama3-V 2.5 现在可以与 llama.cpp 一起运行!有关更多详细信息,请参阅我们对llama.cpp的 fork 。此实现支持在手机上流畅地进行 6~8 token/s 推理(测试环境:小米 14 pro + 骁龙 8 Gen 3)。
使用 vLLM 进行推理
点击查看如何使用 vLLM 进行推理
由于我们对 vLLM 的拉取请求仍在等待审核,因此我们分叉此存储库以构建和测试我们的 vLLM 演示。步骤如下:
  1. 克隆我们的 vLLM 版本:
  1. 安装 vLLM:
  1. 安装 timm:
  1. 运行我们的演示:
微调
简单微调
我们支持使用 Hugging Face 对 MiniCPM-V 2.0 和 MiniCPM-Llama3-V 2.5 进行简单的微调。
使用 SWIFT 框架
我们目前支持使用 SWIFT 框架对 MiniCPM-V 系列进行微调。SWIFT 支持近 200 个 LLM 和 MLLM 的训练、推理、评估和部署。它支持 PEFT 提供的轻量级训练解决方案和完整的适配器库,包括 NEFTune、LoRA+ 和 LLaMA-PRO 等技术。
最佳实践:MiniCPM-V 1.0 , MiniCPM-V 2.0
去做
MiniCPM-V 微调支持
实时交互助手代码发布
模特执照
本仓库中的代码按照Apache-2.0发布
MiniCPM-V 和 OmniLMM 参数的使用须遵守“通用模型许可协议 - 来源说明 - 宣传限制 - 商业许可
参数完全向学术研究开放
商业使用请联系[email protected]获取书面授权,注册后也可免费进行商业使用。
陈述
与 LMM 一样,MiniCPM-V 模型(包括 OmniLMM)通过学习大量多模态语料来生成内容,但它们无法理解、表达个人观点或做出价值判断。MiniCPM-V 模型生成的任何内容都不代表模型开发者的观点和立场
我们不会对使用MiniCPMV-V模型而产生的任何问题承担责任,包括但不限于数据安全问题,舆论风险,或因模型的误导、误用、传播或滥用而产生的任何风险和问题。
机构
该项目由以下机构开发:
我们团队的其他多式联运项目
👏 欢迎探索我们团队的其他多模式项目:
🌟 明星历史
notion image
引用
如果您发现我们的模型/代码/论文有用,请考虑引用我们的论文📝并给我们加星⭐️!
@article{yu2023rlhf, title={Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback}, author={Yu, Tianyu and Yao, Yuan and Zhang, Haoye and He, Taiwen and Han, Yifeng and Cui, Ganqu and Hu, Jinyi and Liu, Zhiyuan and Zheng, Hai-Tao and Sun, Maosong and others}, journal={arXiv preprint arXiv:2312.00849}, year={2023} } @article{viscpm, title={Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages}, author={Jinyi Hu and Yuan Yao and Chongyi Wang and Shan Wang and Yinxu Pan and Qianyu Chen and Tianyu Yu and Hanghao Wu and Yue Zhao and Haoye Zhang and Xu Han and Yankai Lin and Jiao Xue and Dahai Li and Zhiyuan Liu and Maosong Sun}, journal={arXiv preprint arXiv:2308.12038}, year={2023} } @article{xu2024llava-uhd, title={{LLaVA-UHD}: an LMM Perceiving Any Aspect Ratio and High-Resolution Images}, author={Xu, Ruyi and Yao, Yuan and Guo, Zonghao and Cui, Junbo and Ni, Zanlin and Ge, Chunjiang and Chua, Tat-Seng and Liu, Zhiyuan and Huang, Gao}, journal={arXiv preprint arXiv:2403.11703}, year={2024} }
 
MiniCPM-V
OpenBMBUpdated May 28, 2024
MoE-LLaVA:大型视觉语言模型的专家混合体MiniCPM:端侧大语言模型的潜力