AI个人学习
和实操指南

Hugging Face 推出可在终端设备上运行的小型多模态模型 SmolVLM

SmolVLM 是一个参数量 20 亿的小型多模态模型,可以接受任意图片和文字的组合输入,并生成文字输出。

Hugging Face 推出可在终端设备上运行的小型多模态模型 SmolVLM-1


在 7 月推出 SmolLM 轻量语言模型后,AI 应用开发平台 Hugging Face 本周发布了轻量多模态模型 SmolVLM,主打轻量化和高性能,为其小型语言模型产品线再添一员。

SmolVLM 是一个参数量 20 亿的小型多模态模型,被称为同级别模型中的性能领先者(State-of-the-Art,SOTA)。它能够接受任意图片和文字组合作为输入,但作为轻量模型,只会生成文字输出。SmolVLM 可以回答关于图片的问题、描述图片内容、基于多张图片讲故事,也可以作为纯语言模型使用。开发团队表示,SmolVLM 基于轻量架构,非常适合在设备上运行,同时仍然能够很好地完成多模态任务。

SmolVLM 的架构基于 Hugging Face 之前推出的视觉模型 IDEFICS 3,甚至 Transformer 的实现也相同。但 Hugging Face 对 IDEFICS 进行了多项改进。首先,语言模型的核心从 Llama 3.1 8B 换成了 SmolLM2 1.7B。其次,SmolVLM 使用了更先进的图片压缩技术,例如像素混排(pixel shuffle)策略和更大的 patch,用于视觉 Token 编码,从而提高了编码效率、推理速度更快,同时占用更少内存。

Hugging Face 强调了 SmolVLM 的高效性和内存使用优势,并公布了与同等参数量模型的对比测试数据。在多模态理解、推理、数学和文字理解能力方面,SmolVLM 超越了 InternVL2、PaliGemma、MM1.5、moondream 和 MiniCPM-V-2 等模型。而在 GPU 内存使用效率方面,也优于大多数模型。与阿里巴巴的 Qwen2-V2 相比,SmolVLM 的预填充吞吐量快 3.3 到 4.5 倍,而生成吞吐量更是高达 7.5 到 16 倍。

Hugging Face 发布了 SmolVLM 家族的三个模型版本,包括可供微调的基础模型 SmolVLM-Base、基于合成数据集微调的 SmolVLM-Synthetic,以及经过指令微调的版本 SmolVLM Instruct,后者可以直接供终端用户交互使用。SmolVLM 的所有模型检查点、训练数据集、训练方法和工具均以 Apache 2.0开源授权

未经允许不得转载:首席AI分享圈 » Hugging Face 推出可在终端设备上运行的小型多模态模型 SmolVLM

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文