Ultravox: аудио мультимодальная макромодель для сквозного голосового диалога в реальном времени, реализация голосового взаимодействия GPT-4o с открытым исходным кодом
Общее введение
Ultravox - это инновационная мультимодальная модель большого языка (LLM), предназначенная для обработки речи в режиме реального времени. В отличие от традиционных систем распознавания речи, Ultravox исключает необходимость в отдельном этапе распознавания аудиоречи (ASR) и способен напрямую преобразовывать аудио в текст в высокоразмерном пространстве. Эта особенность дает Ultravox значительное преимущество с точки зрения скорости реакции и эффективности обработки. Обученный на таких моделях, как Llama 3, Mistral и Gemma, Ultravox способен понимать как текст, так и человеческую речь, а в будущем сможет нативно понимать временные и эмоциональные сигналы в речи. Текущей версии Ultravox требуется около 150 миллисекунд, чтобы впервые сгенерировать текст при обработке аудиоконтента, генерируя около 60 лексем в секунду.

Список функций
- Обработка речи в реальном времени: прямое преобразование аудио в текст без отдельного этапа ASR.
- Мультимодальная поддержка: способен понимать текст и речь, а в будущем будет поддерживать эмоциональные и временные сигналы.
- Быстрый отклик: время генерации первого текста составляет около 150 мс, генерируется около 60 тегов в секунду.
- Совместимость с различными моделями: обучение на основе таких моделей, как Llama 3, Mistral и Gemma.
- Проект с открытым исходным кодом: код и весовые коэффициенты модели доступны на GitHub и Hugging Face.
- Демо-версия и API: Предоставьте пользователям демо-версию Gradio и размещенный API, чтобы они могли быстро начать работу.
Использование помощи
Процесс установки
- Параметры окружающей среды::
- Для пользователей Mac рекомендуется установить Homebrew. Выполните следующую команду для установки Homebrew:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- Обновите Homebrew и установите необходимые инструменты:
brew update brew install just
- проект клонирования::
- Используйте следующую команду, чтобы клонировать проект Ultravox:
git clone https://github.com/fixie-ai/ultravox.git cd ultravox
- Установка зависимостей::
- Используйте следующую команду для установки зависимостей проекта:
bash
pip install -r requirements.txt
- Используйте следующую команду для установки зависимостей проекта:
Процесс использования
- Бегущая демонстрация::
- Ultravox предоставляет демо-версию Gradio, пользователи могут запустить локальную демонстрацию с помощью следующей команды:
gradio --voice_mode=True
- Посетите указанный локальный URL-адрес, чтобы испытать обработку голоса Ultravox в реальном времени.
- Использование API::
- Ultravox предоставляет набор размещенных API, доступ к которым пользователи могут получить, выполнив следующие действия:
- Посетите страницу API Ultravox, чтобы зарегистрироваться и получить свой ключ API.
- Вызовите службу обработки голоса Ultravox в режиме реального времени, используя ключ API.
- Ultravox предоставляет набор размещенных API, доступ к которым пользователи могут получить, выполнив следующие действия:
- Обучение пользовательских моделей::
- При необходимости пользователи могут обучать свои собственные модели Ultravox. Подробные шаги обучения и конфигурационные файлы можно найти в файле README проекта.
Основные функции
- Обработка речи в реальном времени::
- Запишите или загрузите аудиофайл, и Ultravox автоматически преобразует его в текст.
- Поддерживается потоковая обработка, и пользователи могут просматривать результаты конвертации в режиме реального времени.
- мультимодальная поддержка::
- Введите текст или речь, и Ultravox сможет понять и обработать несколько форм ввода.
- В будущих версиях будет реализовано понимание эмоциональных и временных сигналов.
- Эффективная реакция::
- Ultravox обрабатывает аудиоконтент примерно за 150 миллисекунд для первой генерации текста и генерирует около 60 лексем в секунду, обеспечивая эффективное реагирование в режиме реального времени.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...