Ultravox: аудио мультимодальная макромодель для сквозного голосового диалога в реальном времени, реализация голосового взаимодействия GPT-4o с открытым исходным кодом

Общее введение

Ultravox - это инновационная мультимодальная модель большого языка (LLM), предназначенная для обработки речи в режиме реального времени. В отличие от традиционных систем распознавания речи, Ultravox исключает необходимость в отдельном этапе распознавания аудиоречи (ASR) и способен напрямую преобразовывать аудио в текст в высокоразмерном пространстве. Эта особенность дает Ultravox значительное преимущество с точки зрения скорости реакции и эффективности обработки. Обученный на таких моделях, как Llama 3, Mistral и Gemma, Ultravox способен понимать как текст, так и человеческую речь, а в будущем сможет нативно понимать временные и эмоциональные сигналы в речи. Текущей версии Ultravox требуется около 150 миллисекунд, чтобы впервые сгенерировать текст при обработке аудиоконтента, генерируя около 60 лексем в секунду.

Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

 

Список функций

  • Обработка речи в реальном времени: прямое преобразование аудио в текст без отдельного этапа ASR.
  • Мультимодальная поддержка: способен понимать текст и речь, а в будущем будет поддерживать эмоциональные и временные сигналы.
  • Быстрый отклик: время генерации первого текста составляет около 150 мс, генерируется около 60 тегов в секунду.
  • Совместимость с различными моделями: обучение на основе таких моделей, как Llama 3, Mistral и Gemma.
  • Проект с открытым исходным кодом: код и весовые коэффициенты модели доступны на GitHub и Hugging Face.
  • Демо-версия и API: Предоставьте пользователям демо-версию Gradio и размещенный API, чтобы они могли быстро начать работу.

 

Использование помощи

Процесс установки

  1. Параметры окружающей среды::
    • Для пользователей Mac рекомендуется установить Homebrew. Выполните следующую команду для установки Homebrew:
     /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
    
    • Обновите Homebrew и установите необходимые инструменты:
     brew update
    brew install just
    
  2. проект клонирования::
    • Используйте следующую команду, чтобы клонировать проект Ultravox:
     git clone https://github.com/fixie-ai/ultravox.git
    cd ultravox
    
  3. Установка зависимостей::
    • Используйте следующую команду для установки зависимостей проекта: bash
      pip install -r requirements.txt

Процесс использования

  1. Бегущая демонстрация::
    • Ultravox предоставляет демо-версию Gradio, пользователи могут запустить локальную демонстрацию с помощью следующей команды:
     gradio --voice_mode=True
    
    • Посетите указанный локальный URL-адрес, чтобы испытать обработку голоса Ultravox в реальном времени.
  2. Использование API::
    • Ultravox предоставляет набор размещенных API, доступ к которым пользователи могут получить, выполнив следующие действия:
      • Посетите страницу API Ultravox, чтобы зарегистрироваться и получить свой ключ API.
      • Вызовите службу обработки голоса Ultravox в режиме реального времени, используя ключ API.
  3. Обучение пользовательских моделей::
    • При необходимости пользователи могут обучать свои собственные модели Ultravox. Подробные шаги обучения и конфигурационные файлы можно найти в файле README проекта.

Основные функции

  • Обработка речи в реальном времени::
    • Запишите или загрузите аудиофайл, и Ultravox автоматически преобразует его в текст.
    • Поддерживается потоковая обработка, и пользователи могут просматривать результаты конвертации в режиме реального времени.
  • мультимодальная поддержка::
    • Введите текст или речь, и Ultravox сможет понять и обработать несколько форм ввода.
    • В будущих версиях будет реализовано понимание эмоциональных и временных сигналов.
  • Эффективная реакция::
    • Ultravox обрабатывает аудиоконтент примерно за 150 миллисекунд для первой генерации текста и генерирует около 60 лексем в секунду, обеспечивая эффективное реагирование в режиме реального времени.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...