Molmo 2 - семейство моделей мультимодального понимания видеоизображений с открытым исходным кодом Ai2
Что такое Molmo 2?
Molmo 2 - это мультимодальная модель с открытым исходным кодом, выпущенная Институтом искусственного интеллекта Аллена (Ai2) для улучшения понимания видео и мультиизображений. В комплект входят три варианта: Molmo 2 (8B), Molmo 2 (4B) и Molmo 2-O (7B), которые подходят для различных сценариев и требований. Из них Molmo 2 (8B) лучше всего справляется с локализацией видео и вопросами и ответами, Molmo 2 (4B) оптимизирует эффективность, а Molmo 2-O (7B) обеспечивает полностью открытый сквозной поток модели. Molmo 2 превосходит свою предшественницу в ряде ключевых бенчмарков и превосходит сильных конкурентов, таких как Gemini 3 Pro, в отслеживании видео. Molmo 2 также превосходит предшественницу по количеству обучающих данных, используя всего 9,19 млн видео, что намного меньше, чем у других моделей, и демонстрируя способность эффективно использовать данные. Molmo 2 поддерживает входные данные с одним и несколькими изображениями, а также видеоклипы различной длины, и способна выполнять широкий спектр задач, таких как локализация видео, отслеживание и вопросы и ответы.

Особенности Molmo 2
- Мощное понимание видео: Превосходит свою предшественницу, а также несколько ведущих в отрасли моделей в таких задачах, как определение местоположения видео, отслеживание и вопросы и ответы, например Близнецы 3 Профи.
- Поддержка нескольких и одного изображенияОн поддерживает не только ввод одного изображения, но и работу с несколькими изображениями и видеоклипами различной длины, что позволяет использовать его в самых разных сложных сценариях.
- Эффективное использование данных: Объем обучающих данных составляет всего 9,19 млн видео, что значительно меньше, чем у других моделей, таких как PerceptionLM компании Meta (72,5 млн видео), что свидетельствует об эффективности обучения.
- Гибкие варианты моделей: Включает в себя варианты Molmo 2 (8B), Molmo 2 (4B) и Molmo 2-O (7B), каждый из которых отвечает различным требованиям к производительности и эффективности.
- Открытость и масштабируемость: Обеспечивает полностью открытый процесс сквозного моделирования, подходящий для исследователей, которым необходим полный контроль над стеком моделей, и в будущем будет доступен через API.
- Богатые сценарии примененияОн может использоваться в различных областях, таких как видеоаналитика, роботизированное зрение, вспомогательные технологии и т.д., и поддерживает такие функции, как обобщение видео, отслеживание объектов и создание плотных надписей.
- простота в использовании: Пользователи могут узнать больше об Ai2 в разделе Ai2 Игровая площадка Чтобы быстро оценить возможности модели, загрузите видео или изображения и выполните несколько задач, чтобы увидеть процесс рассуждений модели.
Основные преимущества Molmo 2
- Отличное восприятие видео: Превосходит несколько ведущих в отрасли моделей, таких как Gemini 3 Pro, в таких задачах, как локализация видео, отслеживание и вопросы-ответы, что делает его лидером в области понимания видео.
- Эффективное обучение и использование данныхДля обучения модели было использовано всего 9,19 млн видео, что гораздо меньше, чем у других моделей (например, PerceptionLM компании Meta использует 72,5 млн видео), что свидетельствует об эффективности обучения и использования данных.
- Поддержка мультимодального вводаОн поддерживает входы с одним изображением, несколькими изображениями и видеоклипами различной длины, что позволяет гибко обрабатывать различные сложные сцены и удовлетворять разнообразные потребности.
- Гибкие варианты моделейВарианты Molmo 2 (8B), Molmo 2 (4B) и Molmo 2-O (7B) удовлетворяют различные потребности в высокой производительности, высокой эффективности и полностью открытом управлении, соответственно.
- Открытость и масштабируемость: Построенный на базе Qwen 3 и Olmo, он обеспечивает полностью открытый процесс сквозного моделирования для легкой настройки и расширения исследователями.
Что такое официальный сайт Molmo 2
- Веб-сайт проекта:: https://allenai.org/blog/molmo2
- Репозиторий GitHub:: https://github.com/allenai/molmo2
- Библиотека моделей HuggingFace:: https://huggingface.co/collections/allenai/molmo2
- Технические документы:: https://www.datocms-assets.com/64837/1765901660-molmo_v2_2026-techreport-3.pdf
Для кого предназначен Molmo 2
- научный сотрудник: Ученые и исследователи в области мультимодального ИИ могут проводить эксперименты и исследования в области понимания видео, анализа изображений и мультимодальных рассуждений с помощью Molmo 2, способствуя прогрессу исследований в смежных областях.
- разработчики: Разработчики программного обеспечения, желающие интегрировать в свои проекты расширенные возможности обработки видео и изображений, могут использовать API и открытый исходный код Molmo 2 для быстрой реализации видеоанализа, отслеживания объектов и многого другого.
- педагог: В сфере образования ИИ Molmo 2 можно использовать в качестве учебного инструмента, чтобы помочь студентам понять и попрактиковаться в применении мультимодальных моделей для повышения эффективности преподавания и обучения.
- эксперт отрасли: Специалисты в области мониторинга дорожного движения, промышленной автоматизации, медицинской визуализации и т. д. могут использовать мощные возможности Molmo 2 для повышения эффективности и качества своей работы и принятия решений.
- любитель технологий: Люди, интересующиеся искусственным интеллектом и мультимодальными технологиями, могут учиться и практиковаться с помощью ресурсов Molmo 2 с открытым исходным кодом, чтобы изучить возможности этой технологии.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие посты
Нет комментариев...




