Ultravox: un macromodelo multimodal de audio para el diálogo de voz en tiempo real de extremo a extremo, una implementación de código abierto de la interacción de voz GPT-4o
Últimos recursos sobre IAPublicado hace 8 meses Círculo de intercambio de inteligencia artificial 2.3K 00
Introducción general
Ultravox es un innovador Large Language Model (LLM) multimodal diseñado para el procesamiento del habla en tiempo real. A diferencia de los sistemas tradicionales de reconocimiento del habla, Ultravox elimina la necesidad de una etapa separada de reconocimiento del habla en audio (ASR) y es capaz de convertir directamente el audio en texto en un espacio de alta dimensión. Entrenado con modelos como Llama 3, Mistral y Gemma, Ultravox es capaz de comprender tanto el texto como el habla humana y, en el futuro, será capaz de entender de forma nativa las señales temporales y emocionales del habla. La versión actual de Ultravox tarda unos 150 milisegundos en generar texto por primera vez al procesar contenido de audio, generando unos 60 tokens por segundo.

Lista de funciones
- Procesamiento del habla en tiempo real: convierte el audio directamente en texto sin necesidad de una etapa ASR independiente.
- Soporte multimodal: capaz de entender texto y voz, y en el futuro admitirá señales emocionales y temporales.
- Respuesta eficaz: el tiempo de generación del primer texto es de unos 150 ms, generando unas 60 etiquetas por segundo.
- Compatible con múltiples modelos: formación basada en modelos como Llama 3, Mistral y Gemma.
- Proyecto de código abierto: el código y los pesos del modelo están disponibles en GitHub y Hugging Face.
- Demo y API: Proporciona una demo de Gradio y una API alojada para que los usuarios puedan empezar rápidamente.
Utilizar la ayuda
Proceso de instalación
- Entorno::
- Para los usuarios de Mac, se recomienda Homebrew para la instalación. Ejecute el siguiente comando para instalar Homebrew:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- Actualiza Homebrew e instala las herramientas necesarias:
brew update brew install just
- proyecto de clonación::
- Utilice el siguiente comando para clonar el proyecto Ultravox:
git clone https://github.com/fixie-ai/ultravox.git cd ultravox
- Instalación de dependencias::
- Utilice el siguiente comando para instalar las dependencias del proyecto:
bash
pip install -r requirements.txt
- Utilice el siguiente comando para instalar las dependencias del proyecto:
Proceso de utilización
- Demostración::
- Ultravox proporciona una demo de Gradio, los usuarios pueden ejecutar una demo local con el siguiente comando:
gradio --voice_mode=True
- Visita la URL local proporcionada para experimentar el procesamiento de voz en tiempo real de Ultravox.
- Uso de la API::
- Ultravox proporciona un conjunto de API alojadas a las que los usuarios pueden acceder siguiendo los pasos que se indican a continuación:
- Visita la página API de Ultravox para registrarte y obtener tu clave API.
- Llama al servicio de procesamiento de voz en tiempo real de Ultravox utilizando una clave API.
- Ultravox proporciona un conjunto de API alojadas a las que los usuarios pueden acceder siguiendo los pasos que se indican a continuación:
- Formación de modelos personalizados::
- Los usuarios pueden entrenar sus propios modelos Ultravox según sea necesario. Los pasos de entrenamiento detallados y los archivos de configuración se pueden encontrar en el archivo README del proyecto.
Funciones principales
- Procesamiento del habla en tiempo real::
- Graba o carga un archivo de audio y Ultravox lo convertirá automáticamente en texto.
- Se admite el procesamiento de secuencias y los usuarios pueden ver los resultados de la conversión en tiempo real.
- apoyo multimodal::
- Introduzca texto o voz, y Ultravox es capaz de entender y procesar múltiples formas de entrada.
- Las versiones futuras permitirán la comprensión nativa de señales emocionales y temporales.
- Respuesta eficaz::
- Ultravox procesa el contenido de audio en aproximadamente 150 milisegundos para la primera generación de texto y genera aproximadamente 60 tokens por segundo, lo que garantiza una respuesta eficaz en tiempo real.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...