Ultravox: un macromodelo multimodal de audio para el diálogo de voz en tiempo real de extremo a extremo, una implementación de código abierto de la interacción de voz GPT-4o

Introducción general

Ultravox es un innovador Large Language Model (LLM) multimodal diseñado para el procesamiento del habla en tiempo real. A diferencia de los sistemas tradicionales de reconocimiento del habla, Ultravox elimina la necesidad de una etapa separada de reconocimiento del habla en audio (ASR) y es capaz de convertir directamente el audio en texto en un espacio de alta dimensión. Entrenado con modelos como Llama 3, Mistral y Gemma, Ultravox es capaz de comprender tanto el texto como el habla humana y, en el futuro, será capaz de entender de forma nativa las señales temporales y emocionales del habla. La versión actual de Ultravox tarda unos 150 milisegundos en generar texto por primera vez al procesar contenido de audio, generando unos 60 tokens por segundo.

Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

 

Lista de funciones

  • Procesamiento del habla en tiempo real: convierte el audio directamente en texto sin necesidad de una etapa ASR independiente.
  • Soporte multimodal: capaz de entender texto y voz, y en el futuro admitirá señales emocionales y temporales.
  • Respuesta eficaz: el tiempo de generación del primer texto es de unos 150 ms, generando unas 60 etiquetas por segundo.
  • Compatible con múltiples modelos: formación basada en modelos como Llama 3, Mistral y Gemma.
  • Proyecto de código abierto: el código y los pesos del modelo están disponibles en GitHub y Hugging Face.
  • Demo y API: Proporciona una demo de Gradio y una API alojada para que los usuarios puedan empezar rápidamente.

 

Utilizar la ayuda

Proceso de instalación

  1. Entorno::
    • Para los usuarios de Mac, se recomienda Homebrew para la instalación. Ejecute el siguiente comando para instalar Homebrew:
     /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
    
    • Actualiza Homebrew e instala las herramientas necesarias:
     brew update
    brew install just
    
  2. proyecto de clonación::
    • Utilice el siguiente comando para clonar el proyecto Ultravox:
     git clone https://github.com/fixie-ai/ultravox.git
    cd ultravox
    
  3. Instalación de dependencias::
    • Utilice el siguiente comando para instalar las dependencias del proyecto: bash
      pip install -r requirements.txt

Proceso de utilización

  1. Demostración::
    • Ultravox proporciona una demo de Gradio, los usuarios pueden ejecutar una demo local con el siguiente comando:
     gradio --voice_mode=True
    
    • Visita la URL local proporcionada para experimentar el procesamiento de voz en tiempo real de Ultravox.
  2. Uso de la API::
    • Ultravox proporciona un conjunto de API alojadas a las que los usuarios pueden acceder siguiendo los pasos que se indican a continuación:
      • Visita la página API de Ultravox para registrarte y obtener tu clave API.
      • Llama al servicio de procesamiento de voz en tiempo real de Ultravox utilizando una clave API.
  3. Formación de modelos personalizados::
    • Los usuarios pueden entrenar sus propios modelos Ultravox según sea necesario. Los pasos de entrenamiento detallados y los archivos de configuración se pueden encontrar en el archivo README del proyecto.

Funciones principales

  • Procesamiento del habla en tiempo real::
    • Graba o carga un archivo de audio y Ultravox lo convertirá automáticamente en texto.
    • Se admite el procesamiento de secuencias y los usuarios pueden ver los resultados de la conversión en tiempo real.
  • apoyo multimodal::
    • Introduzca texto o voz, y Ultravox es capaz de entender y procesar múltiples formas de entrada.
    • Las versiones futuras permitirán la comprensión nativa de señales emocionales y temporales.
  • Respuesta eficaz::
    • Ultravox procesa el contenido de audio en aproximadamente 150 milisegundos para la primera generación de texto y genera aproximadamente 60 tokens por segundo, lo que garantiza una respuesta eficaz en tiempo real.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...