Hugging Face представляет SmolVLM, небольшую мультимодальную модель, которая может работать на конечных устройствах

Новости ИИОпубликовано 9 месяцев назад Круг обмена ИИ
7.2K 00

SmolVLM - это небольшая мультимодальная модель с количеством параметров 2 миллиарда, которая принимает на вход любую комбинацию изображений и текста и генерирует текстовый вывод.

Hugging Face 推出可在终端设备上运行的小型多模态模型 SmolVLM

После запуска легкой языковой модели SmolLM в июле платформа для разработки приложений ИИ Hugging Face на этой неделе выпустила SmolVLM, легкую мультимодальную модель, ориентированную на легкий вес и высокую производительность, пополнив свою линейку небольших языковых моделей.

SmolVLM - это небольшая мультимодальная модель с 2 миллиардами ссылок, известная как лидер по производительности в своем классе (State-of-the-Art, SOTA). Она способна принимать на вход любую комбинацию изображений и текста, но, будучи легковесной моделью, будет генерировать только текстовый вывод. SmolVLM может отвечать на вопросы об изображениях, описывать содержание изображения, рассказывать историю на основе нескольких изображений или использоваться как чисто лингвистическая модель. По словам команды разработчиков, SmolVLM основана на легковесной архитектуре, которая хорошо подходит для работы на устройствах и при этом отлично справляется с мультимодальными задачами.

Архитектура SmolVLM основана на ранее представленной модели зрения Hugging Face, IDEFICS 3, и даже Трансформатор Реализация одинаковая. Однако "Обнимая лицо" не является одинаковым для IDEFICS Было сделано несколько улучшений. Во-первых, ядро языковой модели было заменено с Llama 3.1 8B на SmolLM2 1.7B. Во-вторых, SmolVLM использует более продвинутые методы сжатия изображений, такие как стратегия перестановки пикселей и более крупные патчи для визуального восприятия. Токен кодирования, что повышает эффективность кодирования, ускоряет вывод и сокращает расход памяти.

Hugging Face подчеркивает преимущества SmolVLM в эффективности и использовании памяти и публикует данные сравнительных тестов с эквивалентными параметрическими моделями. СмолВЛМ превосходит такие модели, как InternVL2, PaliGemma, MM1.5, moondream и MiniCPM-V-2 в мультимодальном понимании, рассуждениях, математике и понимании текста. Он также превосходит большинство моделей по эффективности использования памяти GPU. По сравнению с Qwen2-V2 от Alibaba, SmolVLM обеспечивает в 3,3-4,5 раза более высокую производительность при предварительном заполнении и в 7,5-16 раз более высокую производительность при генерации.

Компания Hugging Face выпустила три версии моделей семейства SmolVLM, включая SmolVLM-Base для тонкой настройки, SmolVLM-Synthetic для тонкой настройки на основе синтетических наборов данных и версию SmolVLM Instruct с командной настройкой, которая готова к прямому взаимодействию с конечным пользователем. Все контрольные точки модели, наборы данных для обучения, методы обучения и инструменты для SmolVLM основаны на Apache 2.0лицензия с открытым исходным кодом.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...