Molmo: серия мультимодальных открытых языковых моделей, созданных Ai2

Последние ресурсы по искусственному интеллекту2年前更新 Круг обмена ИИ

62.5K 00

Общее введение

Molmo - это мультимодальная открытая языковая модель, разработанная Институтом искусственного интеллекта Аллена (Ai2). Модель сочетает в себе возможности обработки текстовых и визуальных данных для распознавания объектов на изображениях и создания точных описаний. Molmo демонстрирует хорошие результаты в ряде бенчмарков, особенно в сложных задачах, таких как чтение документов и визуальные рассуждения. Ai2 разместила эти данные на Hugging FaceМодели и наборы данныхи планирует запустить больше моделей и расширенных технических отчетов в ближайшие месяцы, чтобы предоставить больше ресурсов для исследователей, узнать больше на Технический отчет.

Ключевым новшеством Molmo является использование совершенно нового набора данных для описания изображений. Модели обучаются на PixMo, наборе из миллиона пар изображений и текстов с высокой степенью отбора. Эти данные были собраны исключительно человеческими аннотаторами с помощью голосовых описаний. Кроме того, Molmo предлагает разнообразные наборы данных для тонкой настройки, включая инновационные данные о 2D-указателях, которые позволяют Molmo отвечать на вопросы, используя не только естественный язык, но и невербальные сигналы.

Molmo основан на Qwen2-72B и использует CLIP от OpenAI в качестве визуальной основы для улучшения способности модели обрабатывать изображения и текст.

Molmo-72B: получил наивысшую оценку в академическом бенчмаркинге и занял второе место в ручной оценке, лишь немного уступив GPT-4o. Он также превзошел несколько современных запатентованных систем, включая Близнецы 1.5 Pro, Flash и Клод 3.5 Сонет: MolmoE-1B: наиболее эффективная модель Molmo, основанная на нашей полностью открытой гибридной экспертной LLM OLMoE-1B-7B, которая работает почти так же хорошо, как GPT-4V, как в академических бенчмарках, так и в ручных оценках. Обе модели Molmo-7B: показывают результаты между GPT-4V и GPT-4o как в академических бенчмарках, так и в ручных оценках, и значительно превосходят недавно выпущенную модель Pixtral 12B в обоих бенчмарках.

Открывайте больше весов и моделей данных

Список функций

Распознавание изображений: способность распознавать объекты на изображении и создавать их описание.
Генерация текста: создание релевантных текстовых описаний на основе входного текста или изображений.
Мультимодальная обработка данных: объединение текстовых и визуальных данных для решения сложных задач.
Ресурсы с открытым исходным кодом: исследователям доступны ресурсы с открытым исходным кодом для моделей и наборов данных.
Онлайн-демонстрация: предоставляет функцию онлайн-демонстрации, где пользователи могут загружать изображения и создавать описания.

Использование помощи

Руководство по использованию

распознавание образов: Нажмите кнопку "Загрузить изображение" на главной странице сайта и выберите файл изображения для распознавания. После загрузки система автоматически сгенерирует описание изображения.
Генерация текста: Введите текст или вопрос, для которого вы хотите создать описание, в текстовое поле, нажмите кнопку "Создать", и система сгенерирует соответствующее текстовое описание в соответствии с введенным содержимым.
Мультимодальная обработка данныхПользователи могут загружать как изображения, так и текст, а система объединяет их и генерирует полное описание.
ресурс с открытым исходным кодом: Посетите платформу Hugging Face для поиска моделей Molmo, загрузки и использования предоставленных ресурсов с открытым исходным кодом.
Онлайн-демонстрация: Нажмите на кнопку "Онлайн-демонстрация" на главной странице сайта, чтобы перейти на демонстрационную страницу. Пользователи могут загружать изображения или вводить текст, чтобы ознакомиться с возможностями Molmo в режиме реального времени.

Функции Поток операций

распознавание образов::
- Откройте сайт Molmo и нажмите на кнопку "Загрузить изображение".
- Выберите файл изображения для распознавания и нажмите "Загрузить".
- Ожидание, пока система обработает и сгенерирует описание изображения.
- Просмотрите и сохраните созданное описание.
Генерация текста::
- В текстовом поле введите текст или вопрос, для которого нужно создать описание.
- Нажмите кнопку "Сгенерировать" и подождите, пока система выполнит обработку.
- Просмотрите созданное текстовое описание, отредактируйте или сохраните его при необходимости.
Мультимодальная обработка данных::
- Загрузите изображение и текст одновременно и нажмите кнопку "Обработать".
- Система сочетает в себе обработку изображений и текста для создания полного описания.
- Просмотрите и сохраните созданное описание композита.
Использование ресурсов с открытым исходным кодом::
- Зайдите на платформу Hugging Face и найдите модели Molmo.
- Загрузите модель и набор данных, следуйте инструкциям по установке и использованию.
- Используйте предоставленные примеры кода и документацию для вторичной разработки или исследования.

Последние ресурсы по искусственному интеллекту # AI Big Model Native Dialogue Tool

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

MiniMind: 2 часа обучения с нуля 26M параметрам GPT с открытым исходным кодом

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

1 год назад

084.8K

Codespaces: облачные среды разработки для написания кода в любом месте и в любое время

Последние ресурсы по искусственному интеллекту # AI Open Services

1 год назад

054K

MimicPC: онлайн-генератор ИИ, предлагающий широкий спектр предустановленных приложений для ИИ, зарубежная версия Endbrain Cloud

Последние ресурсы по искусственному интеллекту # Инструмент генерации изображений для самостоятельного развертывания ИИ

1 год назад

055.4K

Lobe Chat: нативный инструмент для чата с искусственным интеллектом и богатыми возможностями AI-плагинов

Последние ресурсы по искусственному интеллекту Локализованное чат-приложение # AI

2 года назад

072.4K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Molmo: серия мультимодальных открытых языковых моделей, созданных Ai2

Общее введение

Список функций

Использование помощи

Руководство по использованию

Функции Поток операций

Yuanbao/Yuanqi: ИИ-помощник с поддержкой смешанных элементов от Tencent и открытая платформа для проектирования интеллектуальных тел

WebSim AI: веб-редактор с искусственным интеллектом, создающий автономные веб-приложения в одно предложение

Похожие статьи

MiniMind: 2 часа обучения с нуля 26M параметрам GPT с открытым исходным кодом

Codespaces: облачные среды разработки для написания кода в любом месте и в любое время

MimicPC: онлайн-генератор ИИ, предлагающий широкий спектр предустановленных приложений для ИИ, зарубежная версия Endbrain Cloud

Lobe Chat: нативный инструмент для чата с искусственным интеллектом и богатыми возможностями AI-плагинов

Нет комментариев

Последние коллекции

Последние статьи

Molmo: серия мультимодальных открытых языковых моделей, созданных Ai2

Общее введение

Список функций

Использование помощи

Руководство по использованию

Функции Поток операций

Yuanbao/Yuanqi: ИИ-помощник с поддержкой смешанных элементов от Tencent и открытая платформа для проектирования интеллектуальных тел

WebSim AI: веб-редактор с искусственным интеллектом, создающий автономные веб-приложения в одно предложение

Похожие статьи

MiniMind: 2 часа обучения с нуля 26M параметрам GPT с открытым исходным кодом

Codespaces: облачные среды разработки для написания кода в любом месте и в любое время

MimicPC: онлайн-генератор ИИ, предлагающий широкий спектр предустановленных приложений для ИИ, зарубежная версия Endbrain Cloud

Lobe Chat: нативный инструмент для чата с искусственным интеллектом и богатыми возможностями AI-плагинов

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи