Hibiki: un modelo de traducción de voz en tiempo real, traducción en flujo continuo que conserva las características de la voz original

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

65.7K 00

Introducción general

Hibiki es un modelo de traducción de voz en tiempo real de alta fidelidad desarrollado por Kyutai Labs. A diferencia de los traductores offline tradicionales, Hibiki genera traducciones de voz naturales en el idioma de destino y proporciona la traducción del texto en tiempo real mientras el usuario habla. Hibiki alinea el habla y el texto de origen y destino mediante un entrenamiento supervisado y utiliza técnicas de generación de datos sintéticos para garantizar traducciones de alta calidad con datos reales limitados.

Hibiki se basa en el entrenamiento supervisado del habla y el texto de origen y destino alineados del mismo hablante. Debido a la insuficiente cantidad de datos de este tipo, nosotros recurrimos a la generación de datos sintéticos. La correspondencia a nivel de palabra entre las transcripciones de origen y destino se realiza mediante un método de alineación contextual poco supervisado que utiliza el sistema de traducción automática MADLAD. Las reglas de alineación derivadas (una palabra sólo aparece en la lengua de destino cuando puede predecirse a partir de la lengua de origen) se aplican insertando silencio o sintetizando el discurso de destino mediante TTS controlados por voz y conscientes de la alineación.

Lista de funciones

traducción de voz en tiempo realGenerar una traducción de voz natural del idioma de destino en tiempo real mientras el usuario habla.
traducción de textos: Proporciona traducción de texto sincronizada con el habla.
arquitectura multistream (informática)Procesamiento simultáneo del flujo de voz de entrada y generación del flujo de voz de destino para garantizar una traducción coherente y precisa.
alta fidelidad: Garantizar una alta calidad de las traducciones mediante técnicas de formación supervisada y generación de datos sintéticos.
transferencia fonéticaFunción opcional de transferencia de voz para una traducción más natural.

Utilizar la ayuda

Proceso de instalación

PyTorch

montaje moshi Paquete:
```
pip install -U moshi
```

Descargue el archivo de ejemplo:

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3

Ejecute la traducción:
```
python -m moshi.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-pytorch-bf16
```
- Parámetros opcionales --cfg-coef El valor por defecto es 1. Cuanto más alto sea el valor, más se acercará el habla generada al habla original, y el valor recomendado es 3.

MLX

montaje moshi_mlx (requiere al menos la versión 0.2.1):
```
pip install -U moshi_mlx
```

Descargue el archivo de ejemplo:

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3

Ejecute la traducción:
```
python -m moshi_mlx.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-mlx-bf16
```
- Parámetros opcionales --cfg-coef El valor por defecto es 1. Cuanto más alto sea el valor, más se acercará el habla generada al habla original, y el valor recomendado es 3.

MLX-Swift

kyutai-labs/moshi-swift El repositorio contiene una implementación de MLX-Swift que se ejecuta en el iPhone y se ha probado en el iPhone 16 Pro. Tenga en cuenta que este código aún está en fase experimental.

Óxido

entrar en hibiki-rs Catálogo:
```
cd hibiki-rs
```

Descargue el archivo de ejemplo:

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3

Ejecute la traducción:
```
cargo run --features metal -r -- gen sample_fr_hibiki_crepes.mp3 out_en.wav
```
- utilizar --features cuda Si se ejecuta en una GPU NVIDIA o se utiliza el --features metal Funciona en un Mac.

modelización

Hemos lanzado dos modelos de traducción del francés al inglés:

Hibiki 2BPara PyTorch y MLX con 16 flujos RVQ.
Hibiki 1BPara PyTorch y MLX, con 8 flujos RVQ, ideal para el razonamiento del lado del dispositivo.

Lista de modelos:

Hibiki 2B para PyTorch (bf16):kyutai/hibiki-2b-pytorch-bf16
Hibiki 1B para PyTorch (bf16):kyutai/hibiki-1b-pytorch-bf16
Hibiki 2B para MLX (bf16):kyutai/hibiki-2b-mlx-bf16
Hibiki 1B para MLX (bf16):kyutai/hibiki-1b-mlx-bf16

Todos los modelos se publican bajo licencia CC-BY 4.0.

Proceso de utilización

modelo de cebadoArranque el modelo tras el proceso de instalación.
Voz de entrada: Introduce el habla en el idioma de origen a través del micrófono.
traducción en tiempo realHibiki genera una traducción oral en tiempo real en la lengua de destino y muestra simultáneamente la traducción del texto.
Ajuste de la configuración: Ajusta los parámetros, como la transferencia de voz, según sea necesario para obtener una traducción más natural.

Funciones principales

traducción de voz en tiempo realDespués de iniciar el modelo, escribe tu voz directamente en el micrófono e Hibiki la traducirá automáticamente.
traducción de textosHibiki genera una traducción de texto al mismo tiempo que la traducción de voz, que se muestra en la interfaz.
transferencia fonética: Activa la función de transferencia de voz en los ajustes para que la voz traducida se ajuste más a la pronunciación natural de la lengua de destino.

Procedimiento de funcionamiento detallado

modelo de cebadoInicie el modelo tras el proceso de instalación para asegurarse de que todas las dependencias se han instalado correctamente.
Voz de entradaIntroduce tu voz en el idioma de origen a través del micrófono e Hibiki empezará a traducir automáticamente.
Ver los resultados de la traducción: Visualiza en la interfaz las traducciones de voz y texto generadas en tiempo real en el idioma de destino.
Ajuste de la configuración: Ajusta funciones como la transferencia de voz en la configuración según sea necesario para una traducción óptima.