Hugging Face представляет SmolVLM, небольшую мультимодальную модель, которая может работать на конечных устройствах
SmolVLM - это небольшая мультимодальная модель с количеством параметров 2 миллиарда, которая принимает на вход любую комбинацию изображений и текста и генерирует текстовый вывод.

После запуска легкой языковой модели SmolLM в июле платформа для разработки приложений ИИ Hugging Face на этой неделе выпустила SmolVLM, легкую мультимодальную модель, ориентированную на легкий вес и высокую производительность, пополнив свою линейку небольших языковых моделей.
SmolVLM - это небольшая мультимодальная модель с 2 миллиардами ссылок, известная как лидер по производительности в своем классе (State-of-the-Art, SOTA). Она способна принимать на вход любую комбинацию изображений и текста, но, будучи легковесной моделью, будет генерировать только текстовый вывод. SmolVLM может отвечать на вопросы об изображениях, описывать содержание изображения, рассказывать историю на основе нескольких изображений или использоваться как чисто лингвистическая модель. По словам команды разработчиков, SmolVLM основана на легковесной архитектуре, которая хорошо подходит для работы на устройствах и при этом отлично справляется с мультимодальными задачами.
Архитектура SmolVLM основана на ранее представленной модели зрения Hugging Face, IDEFICS 3, и даже Трансформатор Реализация одинаковая. Однако "Обнимая лицо" не является одинаковым для IDEFICS Было сделано несколько улучшений. Во-первых, ядро языковой модели было заменено с Llama 3.1 8B на SmolLM2 1.7B. Во-вторых, SmolVLM использует более продвинутые методы сжатия изображений, такие как стратегия перестановки пикселей и более крупные патчи для визуального восприятия. Токен кодирования, что повышает эффективность кодирования, ускоряет вывод и сокращает расход памяти.
Hugging Face подчеркивает преимущества SmolVLM в эффективности и использовании памяти и публикует данные сравнительных тестов с эквивалентными параметрическими моделями. СмолВЛМ превосходит такие модели, как InternVL2, PaliGemma, MM1.5, moondream и MiniCPM-V-2 в мультимодальном понимании, рассуждениях, математике и понимании текста. Он также превосходит большинство моделей по эффективности использования памяти GPU. По сравнению с Qwen2-V2 от Alibaba, SmolVLM обеспечивает в 3,3-4,5 раза более высокую производительность при предварительном заполнении и в 7,5-16 раз более высокую производительность при генерации.
Компания Hugging Face выпустила три версии моделей семейства SmolVLM, включая SmolVLM-Base для тонкой настройки, SmolVLM-Synthetic для тонкой настройки на основе синтетических наборов данных и версию SmolVLM Instruct с командной настройкой, которая готова к прямому взаимодействию с конечным пользователем. Все контрольные точки модели, наборы данных для обучения, методы обучения и инструменты для SmolVLM основаны на Apache 2.0лицензия с открытым исходным кодом.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...