Hugging Face 推出可在终端设备上运行的小型多模态模型 SmolVLM

1.9K 00

SmolVLM 是一个参数量 20 亿的小型多模态模型，可以接受任意图片和文字的组合输入，并生成文字输出。

Hugging Face 推出可在终端设备上运行的小型多模态模型 SmolVLM

在 7 月推出 SmolLM 轻量语言模型后，AI 应用开发平台 Hugging Face 本周发布了轻量多模态模型 SmolVLM，主打轻量化和高性能，为其小型语言模型产品线再添一员。

SmolVLM 是一个参数量 20 亿的小型多模态模型，被称为同级别模型中的性能领先者（State-of-the-Art，SOTA）。它能够接受任意图片和文字组合作为输入，但作为轻量模型，只会生成文字输出。SmolVLM 可以回答关于图片的问题、描述图片内容、基于多张图片讲故事，也可以作为纯语言模型使用。开发团队表示，SmolVLM 基于轻量架构，非常适合在设备上运行，同时仍然能够很好地完成多模态任务。

SmolVLM 的架构基于 Hugging Face 之前推出的视觉模型 IDEFICS 3，甚至 Transformer 的实现也相同。但 Hugging Face 对 IDEFICS 进行了多项改进。首先，语言模型的核心从 Llama 3.1 8B 换成了 SmolLM2 1.7B。其次，SmolVLM 使用了更先进的图片压缩技术，例如像素混排（pixel shuffle）策略和更大的 patch，用于视觉 Token 编码，从而提高了编码效率、推理速度更快，同时占用更少内存。

Hugging Face 强调了 SmolVLM 的高效性和内存使用优势，并公布了与同等参数量模型的对比测试数据。在多模态理解、推理、数学和文字理解能力方面，SmolVLM 超越了 InternVL2、PaliGemma、MM1.5、moondream 和 MiniCPM-V-2 等模型。而在 GPU 内存使用效率方面，也优于大多数模型。与阿里巴巴的 Qwen2-V2 相比，SmolVLM 的预填充吞吐量快 3.3 到 4.5 倍，而生成吞吐量更是高达 7.5 到 16 倍。

Hugging Face 发布了 SmolVLM 家族的三个模型版本，包括可供微调的基础模型 SmolVLM-Base、基于合成数据集微调的 SmolVLM-Synthetic，以及经过指令微调的版本 SmolVLM Instruct，后者可以直接供终端用户交互使用。SmolVLM 的所有模型检查点、训练数据集、训练方法和工具均以 Apache 2.0开源授权。