VITA: Мультимодальные модели большого языка с открытым исходным кодом для визуального и речевого взаимодействия в реальном времени

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

82.8K 00

Общее введение

VITA - ведущий проект по интерактивному мультимодальному моделированию больших языков с открытым исходным кодом, который является пионером в достижении истинного полного мультимодального взаимодействия. Проект запустил VITA-1.0 в августе 2024 года, став пионером первой интерактивной мультимодальной модели большого языка с открытым исходным кодом, а в декабре 2024 года проект запустил крупную обновленную версию, VITA-1.5, которая значительно улучшает опыт взаимодействия и производительность. Модель VITA поддерживает мультимодальные входы и выходы, такие как изображение, видео и аудио, и оснащена возможностями взаимодействия в реальном времени, значительно сокращая время ожидания голосового взаимодействия от конца к концу с 4 секунд до 1,5 секунд. Модель VITA поддерживает мультимодальные входы и выходы, такие как изображение, видео и аудио, и оснащена возможностью взаимодействия в режиме реального времени, что значительно сокращает время ожидания голосового взаимодействия с 4 секунд до 1,5 секунд, значительно повышая удобство использования. Будучи полностью открытым проектом, VITA представляет собой идеальную платформу для исследователей и разработчиков для изучения мультимодального ИИ.

Список функций

Мультимодальная обработка ввода: поддержка изображений, видео, аудио и других видов ввода
Голосовое взаимодействие в режиме реального времени: задержка при сквозном голосовом взаимодействии составляет всего 1,5 секунды
Возможности визуального анализа: мощные возможности восприятия и анализа изображений и видео.
Обработка звука: поддержка распознавания и синтеза речи
Кросс-модальное понимание: к интеллектуальной корреляции между текстом, изображением и аудио
Поддержка с открытым исходным кодом: весь код обучения и вывода открыт
Предварительно обученные модели: доступно несколько версий предварительно обученных моделей
Гибкие возможности развертывания: поддержка развертывания на нескольких аппаратных платформах

Обзор VITA-1.5

12 августа 2024 года мы выпустили VITA-1.0Это Первая интерактивная мультимодальная модель макроязыка с открытым исходным кодом "все в одном. И сейчас (20 декабря 2024 года) мы представляем вам Новая версия VITA-1.5!

Что нового в VITA-1.5?

Мы рады представить VITA-1.5, в котором был представлен ряд достижений:

Значительное сокращение времени ожидания взаимодействия.. Конечная задержка при голосовом взаимодействии увеличилась с Приблизительно 4 секунды Сокращение до 1,5 секундычто обеспечивает практически мгновенное взаимодействие и значительно повышает удобство использования.
Улучшенная мультимодальная производительность. В MME, иMMBench ответить пением MathVista Средние показатели в мультимодальных бенчмарках, таких как 59.8 поднять его до 70.8.
Расширение возможностей обработки речи.. Был достигнут новый уровень мощности обработки речи: коэффициент ошибок в словах ASR WER (Word Error Rate, Test Other) вырос с 18.4 Уменьшить до 7.5. Кроме того, мы использовали Конечный модуль TTS Заменяет отдельный модуль TTS из VITA-1.0, который принимает на вход встраивание больших языковых моделей.
Прогрессивные стратегии обучения. Таким образом, включение речевого модуля практически не влияет на другие мультимодальные показатели (визуально-вербальные). Средний показатель понимания изображений снизился лишь с 71,3 до 70,8.

Результаты

Оценка эталонных тестов для понимания изображений и видео

VITA-1.5 превосходит профессиональные речевые модели в бенчмарках ASR

Включение аудиомодальностей практически не влияет на восприятие изображений и видео.

Использование помощи

1. Настройка и установка среды

1.1 Требования к фундаменту:

Среда Python
Фреймворк PyTorch
Поддержка CUDA (рекомендуется ускорение GPU)

1.2 Этапы установки:

# 克隆项目仓库
git clone https://github.com/VITA-MLLM/VITA.git
cd VITA
# 安装依赖
pip install -r requirements.txt

2. использование моделей

2.1 Загрузка предварительно обученной модели:

from vita.model.builder import load_pretrained_model
from vita.conversation import conv_templates
from vita.util.mm_utils import get_model_name_from_path
# 加载模型
model_path = 'VITA/vita'
model_name = get_model_name_from_path(model_path)
tokenizer, model, image_processor, _ = load_pretrained_model(
model_path, 
None, 
model_name, 
model_type='mixtral-8x7b', 
device_map='auto'
)

2.2 Конфигурация обработки звука:

# 初始化音频编码器
audio_encoder = model.get_audio_encoder()
audio_encoder.to(dtype=torch.float16)
audio_processor = audio_encoder.audio_processor

3. интерактивные функции в режиме реального времени

Поддержка голосового ввода и ответа в режиме реального времени
Интегрированное распознавание и анализ изображений
Поддержка многораундовых диалогов
Предоставьте полную систему шаблонов диалогов

4. Использование расширенных функций

4.1 Обработка мультимодального ввода:

Поддержка пакетной обработки изображений
Анализ видеопотоков в режиме реального времени
Обработка и синтез аудиопотоков

4.2 Обучение и тонкая настройка модели:

Предоставляет полные сценарии обучения
Поддержка функций непрерывного обучения
Поддержка обучения с использованием пользовательских наборов данных

5. Оценка и тестирование

Поддерживает основные эталоны мультимодальной оценки
Встроенный инструмент оценки VLMEvalKit
Предоставляет подробные показатели тестирования производительности

6. Предостережения

Для вывода модели рекомендуется использовать графические процессоры
Обратите внимание на управление памятью, особенно при работе с большими мультимодальными данными.
Регулярно проверяйте обновления проекта, чтобы узнать о последних возможностях и оптимизациях.