Molmo: серия мультимодальных открытых языковых моделей, созданных Ai2

Общее введение

Molmo - это мультимодальная открытая языковая модель, разработанная Институтом искусственного интеллекта Аллена (Ai2). Модель сочетает в себе возможности обработки текстовых и визуальных данных для распознавания объектов на изображениях и создания точных описаний. Molmo демонстрирует хорошие результаты в ряде бенчмарков, особенно в сложных задачах, таких как чтение документов и визуальные рассуждения. Ai2 разместила эти данные на Hugging FaceМодели и наборы данныхи планирует запустить больше моделей и расширенных технических отчетов в ближайшие месяцы, чтобы предоставить больше ресурсов для исследователей, узнать больше на Технический отчет.

Ключевым новшеством Molmo является использование совершенно нового набора данных для описания изображений. Модели обучаются на PixMo, наборе из миллиона пар изображений и текстов с высокой степенью отбора. Эти данные были собраны исключительно человеческими аннотаторами с помощью голосовых описаний. Кроме того, Molmo предлагает разнообразные наборы данных для тонкой настройки, включая инновационные данные о 2D-указателях, которые позволяют Molmo отвечать на вопросы, используя не только естественный язык, но и невербальные сигналы.

Molmo:Ai2构建的一系列多模态开放语言模型

Molmo основан на Qwen2-72B и использует CLIP от OpenAI в качестве визуальной основы для улучшения способности модели обрабатывать изображения и текст.

 

Molmo:Ai2构建的一系列多模态开放语言模型

Molmo-72B: получил наивысшую оценку в академическом бенчмаркинге и занял второе место в ручной оценке, лишь немного уступив GPT-4o. Он также превзошел несколько современных запатентованных систем, включая Близнецы 1.5 Pro, Flash и Клод 3.5 Сонет: MolmoE-1B: наиболее эффективная модель Molmo, основанная на нашей полностью открытой гибридной экспертной LLM OLMoE-1B-7B, которая работает почти так же хорошо, как GPT-4V, как в академических бенчмарках, так и в ручных оценках. Обе модели Molmo-7B: показывают результаты между GPT-4V и GPT-4o как в академических бенчмарках, так и в ручных оценках, и значительно превосходят недавно выпущенную модель Pixtral 12B в обоих бенчмарках.

 

Molmo:Ai2构建的一系列多模态开放语言模型

Открывайте больше весов и моделей данных

 

Список функций

  • Распознавание изображений: способность распознавать объекты на изображении и создавать их описание.
  • Генерация текста: создание релевантных текстовых описаний на основе входного текста или изображений.
  • Мультимодальная обработка данных: объединение текстовых и визуальных данных для решения сложных задач.
  • Ресурсы с открытым исходным кодом: исследователям доступны ресурсы с открытым исходным кодом для моделей и наборов данных.
  • Онлайн-демонстрация: предоставляет функцию онлайн-демонстрации, где пользователи могут загружать изображения и создавать описания.

Использование помощи

Руководство по использованию

  1. распознавание образов: Нажмите кнопку "Загрузить изображение" на главной странице сайта и выберите файл изображения для распознавания. После загрузки система автоматически сгенерирует описание изображения.
  2. Генерация текста: Введите текст или вопрос, для которого вы хотите создать описание, в текстовое поле, нажмите кнопку "Создать", и система сгенерирует соответствующее текстовое описание в соответствии с введенным содержимым.
  3. Мультимодальная обработка данныхПользователи могут загружать как изображения, так и текст, а система объединяет их и генерирует полное описание.
  4. ресурс с открытым исходным кодом: Посетите платформу Hugging Face для поиска моделей Molmo, загрузки и использования предоставленных ресурсов с открытым исходным кодом.
  5. Онлайн-демонстрация: Нажмите на кнопку "Онлайн-демонстрация" на главной странице сайта, чтобы перейти на демонстрационную страницу. Пользователи могут загружать изображения или вводить текст, чтобы ознакомиться с возможностями Molmo в режиме реального времени.

Функции Поток операций

  1. распознавание образов::
    • Откройте сайт Molmo и нажмите на кнопку "Загрузить изображение".
    • Выберите файл изображения для распознавания и нажмите "Загрузить".
    • Ожидание, пока система обработает и сгенерирует описание изображения.
    • Просмотрите и сохраните созданное описание.
  2. Генерация текста::
    • В текстовом поле введите текст или вопрос, для которого нужно создать описание.
    • Нажмите кнопку "Сгенерировать" и подождите, пока система выполнит обработку.
    • Просмотрите созданное текстовое описание, отредактируйте или сохраните его при необходимости.
  3. Мультимодальная обработка данных::
    • Загрузите изображение и текст одновременно и нажмите кнопку "Обработать".
    • Система сочетает в себе обработку изображений и текста для создания полного описания.
    • Просмотрите и сохраните созданное описание композита.
  4. Использование ресурсов с открытым исходным кодом::
    • Зайдите на платформу Hugging Face и найдите модели Molmo.
    • Загрузите модель и набор данных, следуйте инструкциям по установке и использованию.
    • Используйте предоставленные примеры кода и документацию для вторичной разработки или исследования.
© заявление об авторских правах

Похожие статьи

RAGFlow:基于深度文档理解的开源RAG引擎,提供高效的检索增强生成工作流

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...