Ultravox: un macromodelo multimodal de audio para el diálogo de voz en tiempo real de extremo a extremo, una implementación de código abierto de la interacción de voz GPT-4o

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

66.7K 00

Introducción general

Ultravox es un innovador Large Language Model (LLM) multimodal diseñado para el procesamiento del habla en tiempo real. A diferencia de los sistemas tradicionales de reconocimiento del habla, Ultravox elimina la necesidad de una etapa separada de reconocimiento del habla en audio (ASR) y es capaz de convertir directamente el audio en texto en un espacio de alta dimensión. Entrenado con modelos como Llama 3, Mistral y Gemma, Ultravox es capaz de comprender tanto el texto como el habla humana y, en el futuro, será capaz de entender de forma nativa las señales temporales y emocionales del habla. La versión actual de Ultravox tarda unos 150 milisegundos en generar texto por primera vez al procesar contenido de audio, generando unos 60 tokens por segundo.

Ultravox：实时端到端语音对话的音频多模态大模型，GPT-4o语音交互的开源实现

Lista de funciones

Procesamiento del habla en tiempo real: convierte el audio directamente en texto sin necesidad de una etapa ASR independiente.
Soporte multimodal: capaz de entender texto y voz, y en el futuro admitirá señales emocionales y temporales.
Respuesta eficaz: el tiempo de generación del primer texto es de unos 150 ms, generando unas 60 etiquetas por segundo.
Compatible con múltiples modelos: formación basada en modelos como Llama 3, Mistral y Gemma.
Proyecto de código abierto: el código y los pesos del modelo están disponibles en GitHub y Hugging Face.
Demo y API: Proporciona una demo de Gradio y una API alojada para que los usuarios puedan empezar rápidamente.

Utilizar la ayuda

Proceso de instalación

Entorno::
- Para los usuarios de Mac, se recomienda Homebrew para la instalación. Ejecute el siguiente comando para instalar Homebrew:
```
 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
```
- Actualiza Homebrew e instala las herramientas necesarias:
```
 brew update
brew install just
```
proyecto de clonación::
- Utilice el siguiente comando para clonar el proyecto Ultravox:
```
 git clone https://github.com/fixie-ai/ultravox.git
cd ultravox
```
Instalación de dependencias::
- Utilice el siguiente comando para instalar las dependencias del proyecto: bash pip install -r requirements.txt

Proceso de utilización

Demostración::
- Ultravox proporciona una demo de Gradio, los usuarios pueden ejecutar una demo local con el siguiente comando:
```
 gradio --voice_mode=True
```
- Visita la URL local proporcionada para experimentar el procesamiento de voz en tiempo real de Ultravox.
Uso de la API::
- Ultravox proporciona un conjunto de API alojadas a las que los usuarios pueden acceder siguiendo los pasos que se indican a continuación:
  - Visita la página API de Ultravox para registrarte y obtener tu clave API.
  - Llama al servicio de procesamiento de voz en tiempo real de Ultravox utilizando una clave API.
Formación de modelos personalizados::
- Los usuarios pueden entrenar sus propios modelos Ultravox según sea necesario. Los pasos de entrenamiento detallados y los archivos de configuración se pueden encontrar en el archivo README del proyecto.

Funciones principales

Procesamiento del habla en tiempo real::
- Graba o carga un archivo de audio y Ultravox lo convertirá automáticamente en texto.
- Se admite el procesamiento de secuencias y los usuarios pueden ver los resultados de la conversión en tiempo real.
apoyo multimodal::
- Introduzca texto o voz, y Ultravox es capaz de entender y procesar múltiples formas de entrada.
- Las versiones futuras permitirán la comprensión nativa de señales emocionales y temporales.
Respuesta eficaz::
- Ultravox procesa el contenido de audio en aproximadamente 150 milisegundos para la primera generación de texto y genera aproximadamente 60 tokens por segundo, lo que garantiza una respuesta eficaz en tiempo real.

Últimos recursos sobre IA # AI Big Model Herramienta de diálogo nativa # AI Java Proyecto de código abierto

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Simba: un sistema de gestión del conocimiento para organizar documentos, perfectamente integrado en cualquier sistema GAR.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Recuperación de conocimientos y marco RAG

hace 1 año

060.7K

wdoc: recuperar contenidos y resumir conocimientos a partir de documentos masivos de múltiples fuentes

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Recuperación de conocimientos y marco RAG

hace 1 año

053.3K

InstanceAssemble - Tecnología de generación de control de diseño de código abierto de Little Red Book y la Universidad de Fudan

Últimos recursos sobre IA

hace 3 meses

019.7K

Wispr Flow: utiliza tu voz para introducir texto rápidamente en cualquier aplicación

Últimos recursos sobre IA # AI Voz a texto

hace 10 meses

0127K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Ultravox: un macromodelo multimodal de audio para el diálogo de voz en tiempo real de extremo a extremo, una implementación de código abierto de la interacción de voz GPT-4o

Introducción general

Lista de funciones