Megrez-3B-Omni: конечная модель мультимодального понимания, поддерживающая мультимодальное понимание и анализ текста, изображений и аудио

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

44.3K 00

Общее введение

Infini-Megrez - это интеллектуальное решение, разработанное компанией Infinigence AI и направленное на достижение эффективного мультимодального понимания и анализа с помощью совместной разработки аппаратного и программного обеспечения. В основе проекта лежит модель Megrez-3B, которая поддерживает интегрированное понимание изображений, текста и аудио с высокой точностью и быстрым выводом. Модель Megrez-3B демонстрирует хорошие результаты в ряде основных бенчмарков и подходит для таких задач, как понимание сцен и оптическое распознавание символов (OCR). Проект предоставляет полный код для развертывания, чтобы разработчики могли легко применять его на различных платформах.

Megrez-3B-Omni：端侧多模态理解模型，支持文本、图像、音频多模态理解和分析

Список функций

графическое понимание: Создает маркеры изображений с помощью SigLip-400M и демонстрирует хорошие результаты в таких бенчмарках, как MME, MMVet и OCRBench.
понимание языка: Отлично воспринимает текст и демонстрирует высокие результаты в эталонных тестах, таких как C-EVAL и MMLU.
понимание речи: Поддерживает китайский и английский голосовой ввод, многораундовый диалог и ответ на голосовые команды.
быстрый вывод: Достижение ускорения вывода до 300% за счет совместного проектирования аппаратного и программного обеспечения.
простота в использовании: Принимает классическую архитектуру LLaMA, что облегчает разработчикам развертывание на различных платформах.
Богатые приложения: Предоставляем полнофункциональное решение WebSearch, которое автоматически определяет время выполнения поисковых вызовов для получения более качественных итоговых результатов.

Использование помощи

Процесс установки

склад клонов: Клонируйте репозиторий Infini-Megrez, выполнив следующую команду в терминале:

   git clone https://github.com/infinigence/Infini-Megrez.git

Установка зависимостей: Перейдите в каталог проекта и установите необходимые зависимости:

   cd Infini-Megrez
pip install -r requirements.txt

Скачать модели: Загрузите необходимые файлы моделей в соответствии с указаниями в файле README и поместите их в указанную директорию.

Руководство по использованию

графическое понимание::
- Помещает файл изображения в указанный каталог.
- Запустите сценарий понимания изображения:
```
 python image_understanding.py --input_dir ./images
```
- Просматривайте выходные данные с маркерами изображений и результатами анализа.
понимание языка::
- Помещает текстовый файл в указанный каталог.
- Запуск скриптов для понимания языка:
```
 python text_understanding.py --input_dir ./texts
```
- Просмотрите выходные данные, содержащие результаты анализа и понимания текста.
понимание речи::
- Помещает аудиофайл в указанную директорию.
- Запустите сценарий понимания речи: bash python speech_understanding.py --input_dir ./audios
- Просматривайте выходные данные с преобразованием речи в текст и результаты анализа.

Основные функции Процедура работы

мультимодальное понимание::
- Поместите изображения, текстовые и аудиофайлы в соответствующие каталоги.
- Запустите сценарий мультимодального понимания:
```
 python multimodal_understanding.py --image_dir ./images --text_dir ./texts --audio_dir ./audios
```
- Просмотрите результаты комплексного анализа, включающего совместное восприятие и анализ изображений, текста и речи.
Решения для веб-поиска::
- Настройте модуль WebSearch и убедитесь, что сетевое соединение работает.
- Запустите сценарий WebSearch: bash python websearch.py --query "输入查询内容"
- Просматривайте результаты поиска и сводки. Система автоматически определяет, нужно ли вызывать функцию поиска, и предоставляет оптимизированные сводки.

Следуя приведенным выше инструкциям, пользователи смогут полностью понять и использовать функции Infini-Megrez для достижения эффективного мультимодального понимания и анализа.