Hugging Face представляет SmolVLM, небольшую мультимодальную модель, которая может работать на конечных устройствах

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

32.3K 00

SmolVLM - это небольшая мультимодальная модель с количеством параметров 2 миллиарда, которая принимает на вход любую комбинацию изображений и текста и генерирует текстовый вывод.

Hugging Face 推出可在终端设备上运行的小型多模态模型 SmolVLM

После запуска легкой языковой модели SmolLM в июле платформа для разработки приложений ИИ Hugging Face на этой неделе выпустила SmolVLM, легкую мультимодальную модель, ориентированную на легкий вес и высокую производительность, пополнив свою линейку небольших языковых моделей.

SmolVLM - это небольшая мультимодальная модель с 2 миллиардами ссылок, известная как лидер по производительности в своем классе (State-of-the-Art, SOTA). Она способна принимать на вход любую комбинацию изображений и текста, но, будучи легковесной моделью, будет генерировать только текстовый вывод. SmolVLM может отвечать на вопросы об изображениях, описывать содержание изображения, рассказывать историю на основе нескольких изображений или использоваться как чисто лингвистическая модель. По словам команды разработчиков, SmolVLM основана на легковесной архитектуре, которая хорошо подходит для работы на устройствах и при этом отлично справляется с мультимодальными задачами.

Архитектура SmolVLM основана на ранее представленной модели зрения Hugging Face, IDEFICS 3, и даже Трансформатор Реализация одинаковая. Однако "Обнимая лицо" не является одинаковым для IDEFICS Было сделано несколько улучшений. Во-первых, ядро языковой модели было заменено с Llama 3.1 8B на SmolLM2 1.7B. Во-вторых, SmolVLM использует более продвинутые методы сжатия изображений, такие как стратегия перестановки пикселей и более крупные патчи для визуального восприятия. Токен кодирования, что повышает эффективность кодирования, ускоряет вывод и сокращает расход памяти.

Hugging Face подчеркивает преимущества SmolVLM в эффективности и использовании памяти и публикует данные сравнительных тестов с эквивалентными параметрическими моделями. СмолВЛМ превосходит такие модели, как InternVL2, PaliGemma, MM1.5, moondream и MiniCPM-V-2 в мультимодальном понимании, рассуждениях, математике и понимании текста. Он также превосходит большинство моделей по эффективности использования памяти GPU. По сравнению с Qwen2-V2 от Alibaba, SmolVLM обеспечивает в 3,3-4,5 раза более высокую производительность при предварительном заполнении и в 7,5-16 раз более высокую производительность при генерации.

Компания Hugging Face выпустила три версии моделей семейства SmolVLM, включая SmolVLM-Base для тонкой настройки, SmolVLM-Synthetic для тонкой настройки на основе синтетических наборов данных и версию SmolVLM Instruct с командной настройкой, которая готова к прямому взаимодействию с конечным пользователем. Все контрольные точки модели, наборы данных для обучения, методы обучения и инструменты для SmolVLM основаны на Apache 2.0лицензия с открытым исходным кодом.

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Отчет о бенчмаркинге китайских крупных моделей за 2024 год (SuperCLUE)

Новости ИИ

12 месяцев назад

055.5K

Windsurf Wave 2 重大更新：引入网页搜索和自动化记忆功能，并提供企业级混合部署版本

Крупное обновление Windsurf Wave 2: введение веб-поиска и автоматизированной памяти в версии для гибридного развертывания Enterprise

Новости ИИ

12 месяцев назад

032.7K

Станет ли 2025 год эрой ИИ-агентов и заменит ли ИИ платформы без кода?

Новости ИИ

1 год назад

027.2K

Моделирование больших языков Неофициальные ресурсы API KEY канала продаж (на основе OPENAI)

Новости ИИ

1 год назад

034.3K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Hugging Face представляет SmolVLM, небольшую мультимодальную модель, которая может работать на конечных устройствах

Новый выпуск｜Copilot + Agents - новая эра интеллектуальной разработки с низким уровнем кода.

OpenAI надеется довести число пользователей до 1 миллиарда в следующем году и будет активно расширять центры обработки данных

Похожие посты

Отчет о бенчмаркинге китайских крупных моделей за 2024 год (SuperCLUE)

Крупное обновление Windsurf Wave 2: введение веб-поиска и автоматизированной памяти в версии для гибридного развертывания Enterprise

Станет ли 2025 год эрой ИИ-агентов и заменит ли ИИ платформы без кода?

Моделирование больших языков Неофициальные ресурсы API KEY канала продаж (на основе OPENAI)

Нет комментариев

Последние коллекции

Последние статьи

Hugging Face представляет SmolVLM, небольшую мультимодальную модель, которая может работать на конечных устройствах

Новый выпуск｜Copilot + Agents - новая эра интеллектуальной разработки с низким уровнем кода.

OpenAI надеется довести число пользователей до 1 миллиарда в следующем году и будет активно расширять центры обработки данных

Похожие посты

Отчет о бенчмаркинге китайских крупных моделей за 2024 год (SuperCLUE)

Крупное обновление Windsurf Wave 2: введение веб-поиска и автоматизированной памяти в версии для гибридного развертывания Enterprise

Станет ли 2025 год эрой ИИ-агентов и заменит ли ИИ платформы без кода?

Моделирование больших языков Неофициальные ресурсы API KEY канала продаж (на основе OPENAI)

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи