Molmo 2 - семейство моделей мультимодального понимания видеоизображений с открытым исходным кодом Ai2

堆友AI

Что такое Molmo 2?

Molmo 2 - это мультимодальная модель с открытым исходным кодом, выпущенная Институтом искусственного интеллекта Аллена (Ai2) для улучшения понимания видео и мультиизображений. В комплект входят три варианта: Molmo 2 (8B), Molmo 2 (4B) и Molmo 2-O (7B), которые подходят для различных сценариев и требований. Из них Molmo 2 (8B) лучше всего справляется с локализацией видео и вопросами и ответами, Molmo 2 (4B) оптимизирует эффективность, а Molmo 2-O (7B) обеспечивает полностью открытый сквозной поток модели. Molmo 2 превосходит свою предшественницу в ряде ключевых бенчмарков и превосходит сильных конкурентов, таких как Gemini 3 Pro, в отслеживании видео. Molmo 2 также превосходит предшественницу по количеству обучающих данных, используя всего 9,19 млн видео, что намного меньше, чем у других моделей, и демонстрируя способность эффективно использовать данные. Molmo 2 поддерживает входные данные с одним и несколькими изображениями, а также видеоклипы различной длины, и способна выполнять широкий спектр задач, таких как локализация видео, отслеживание и вопросы и ответы.

Molmo 2 - Ai2开源的多模态视频图像理解模型系列

Особенности Molmo 2

  • Мощное понимание видео: Превосходит свою предшественницу, а также несколько ведущих в отрасли моделей в таких задачах, как определение местоположения видео, отслеживание и вопросы и ответы, например Близнецы 3 Профи.
  • Поддержка нескольких и одного изображенияОн поддерживает не только ввод одного изображения, но и работу с несколькими изображениями и видеоклипами различной длины, что позволяет использовать его в самых разных сложных сценариях.
  • Эффективное использование данных: Объем обучающих данных составляет всего 9,19 млн видео, что значительно меньше, чем у других моделей, таких как PerceptionLM компании Meta (72,5 млн видео), что свидетельствует об эффективности обучения.
  • Гибкие варианты моделей: Включает в себя варианты Molmo 2 (8B), Molmo 2 (4B) и Molmo 2-O (7B), каждый из которых отвечает различным требованиям к производительности и эффективности.
  • Открытость и масштабируемость: Обеспечивает полностью открытый процесс сквозного моделирования, подходящий для исследователей, которым необходим полный контроль над стеком моделей, и в будущем будет доступен через API.
  • Богатые сценарии примененияОн может использоваться в различных областях, таких как видеоаналитика, роботизированное зрение, вспомогательные технологии и т.д., и поддерживает такие функции, как обобщение видео, отслеживание объектов и создание плотных надписей.
  • простота в использовании: Пользователи могут узнать больше об Ai2 в разделе Ai2 Игровая площадка Чтобы быстро оценить возможности модели, загрузите видео или изображения и выполните несколько задач, чтобы увидеть процесс рассуждений модели.

Основные преимущества Molmo 2

  • Отличное восприятие видео: Превосходит несколько ведущих в отрасли моделей, таких как Gemini 3 Pro, в таких задачах, как локализация видео, отслеживание и вопросы-ответы, что делает его лидером в области понимания видео.
  • Эффективное обучение и использование данныхДля обучения модели было использовано всего 9,19 млн видео, что гораздо меньше, чем у других моделей (например, PerceptionLM компании Meta использует 72,5 млн видео), что свидетельствует об эффективности обучения и использования данных.
  • Поддержка мультимодального вводаОн поддерживает входы с одним изображением, несколькими изображениями и видеоклипами различной длины, что позволяет гибко обрабатывать различные сложные сцены и удовлетворять разнообразные потребности.
  • Гибкие варианты моделейВарианты Molmo 2 (8B), Molmo 2 (4B) и Molmo 2-O (7B) удовлетворяют различные потребности в высокой производительности, высокой эффективности и полностью открытом управлении, соответственно.
  • Открытость и масштабируемость: Построенный на базе Qwen 3 и Olmo, он обеспечивает полностью открытый процесс сквозного моделирования для легкой настройки и расширения исследователями.

Что такое официальный сайт Molmo 2

  • Веб-сайт проекта:: https://allenai.org/blog/molmo2
  • Репозиторий GitHub:: https://github.com/allenai/molmo2
  • Библиотека моделей HuggingFace:: https://huggingface.co/collections/allenai/molmo2
  • Технические документы:: https://www.datocms-assets.com/64837/1765901660-molmo_v2_2026-techreport-3.pdf

Для кого предназначен Molmo 2

  • научный сотрудник: Ученые и исследователи в области мультимодального ИИ могут проводить эксперименты и исследования в области понимания видео, анализа изображений и мультимодальных рассуждений с помощью Molmo 2, способствуя прогрессу исследований в смежных областях.
  • разработчики: Разработчики программного обеспечения, желающие интегрировать в свои проекты расширенные возможности обработки видео и изображений, могут использовать API и открытый исходный код Molmo 2 для быстрой реализации видеоанализа, отслеживания объектов и многого другого.
  • педагог: В сфере образования ИИ Molmo 2 можно использовать в качестве учебного инструмента, чтобы помочь студентам понять и попрактиковаться в применении мультимодальных моделей для повышения эффективности преподавания и обучения.
  • эксперт отрасли: Специалисты в области мониторинга дорожного движения, промышленной автоматизации, медицинской визуализации и т. д. могут использовать мощные возможности Molmo 2 для повышения эффективности и качества своей работы и принятия решений.
  • любитель технологий: Люди, интересующиеся искусственным интеллектом и мультимодальными технологиями, могут учиться и практиковаться с помощью ресурсов Molmo 2 с открытым исходным кодом, чтобы изучить возможности этой технологии.
© заявление об авторских правах

Похожие посты

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...