Clonación de voz CSM: Clonación rápida de voz con CSM-1B

Últimos recursos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial

Introducción general

CSM Voice Cloning es un proyecto de código abierto desarrollado por Isaiah Bjork y alojado en GitHub. Se basa en el modelo CSM-1B de Sesame, que permite a los usuarios clonar su propia voz y generar su propia voz personalizada simplemente proporcionando una muestra de audio. La herramienta admite tanto ejecuciones locales en la GPU como ejecuciones modales en la nube, lo que la hace adecuada para creadores de contenidos, desarrolladores o cualquier persona interesada en la tecnología de la voz. Aunque los resultados de la clonación no son los más perfectos, la voz generada conserva algunas de las características de la voz de destino y el efecto es reconocible. Requiere algunas bases técnicas, como instalar Python y configurar el entorno, pero hay disponible oficialmente una guía detallada. El proyecto es completamente gratuito y la comunidad está invitada a contribuir con mejoras en el código.

Lista de funciones

Clonación del habla: cargue muestras de audio para generar un habla que suene similar a la muestra.
Texto a voz: introduce texto y genera archivos de audio con voces clonadas.
Ejecución local: utilice su GPU personal para procesar las tareas de generación de voz.
Se ejecuta en la nube: Acelerado por GPUs en la nube a través de la plataforma Modal.
Soporte de código abierto: el código es público y puede ser modificado u optimizado por el usuario.
Admite los formatos de audio habituales: acepta archivos MP3 o WAV como muestras.
Ajuste de parámetros: Permite al usuario ajustar la configuración del modelo para adaptarse a diferentes longitudes de audio.

Utilizar la ayuda

Proceso de instalación

Para utilizar CSM Voice Cloning, los usuarios deben configurar primero el entorno de ejecución. A continuación se detallan los pasos a seguir:

Ejecutar la instalación localmente

Compruebe los requisitos de hardware y software
- Requiere Python 3.10 o posterior.
- Se necesitan tarjetas gráficas compatibles con NVIDIA CUDA y suficiente memoria de vídeo para el funcionamiento local.
- Asegúrese de que dispone de conexión a Internet para descargar los modelos y las dependencias.
Repositorio de código clonado
- Abra un terminal (CMD o PowerShell para Windows, Bash para Linux/Mac).
- Introduce el comando:
```
git clone https://github.com/isaiahbjork/csm-voice-cloning.git
cd csm-voice-cloning
```
Instalación de dependencias
- Se ejecuta en el terminal:
```
pip install -r requirements.txt
```
- Esto instalará las librerías necesarias como PyTorch, Hugging Face, etc.

Instalación de Cloud Run (Modal)

Instalación de Modal
- Se ejecuta en el terminal:
```
pip install modal
```
Configuración de la autenticación modal
- Introduce el comando:
```
modal token new
```
- Siga las instrucciones para iniciar sesión en su cuenta Modal o crear una cuenta nueva.

Configuración de la cuenta "Cara de abrazo

Registrarse y obtener una ficha
- Visite el sitio web de Hugging Face para registrarse o iniciar sesión.
- existe Página del modelo Sesame CSM-1B Haga clic en "Acceder al repositorio" y acepte las condiciones.
- Generar tokens de API: haz clic en tu avatar en la esquina superior derecha -> Configuración -> Fichas -> Nuevo Token.
Token de configuración
- Método 1: Escriba en el terminal:
```
export HF_TOKEN="你的令牌"
```
- Método 2: Modificación voice_clone.py encuentre el archivo os.environ["HF_TOKEN"]Rellena la ficha.

Preparación de muestras de audio

Grabar audio
- Grabe un clip de audio claro de 2-3 minutos, preferiblemente sin ruido de fondo.
- Guardar en formato MP3 o WAV, por ejemplo. sample.mp3.
Transcripción del texto
- gasto o desembolso Susurro u otra herramienta para transcribir el contenido del audio, anotando el texto exacto (por ejemplo, "Hola, este es mi audio de prueba").

Funciones principales

clon de hablante nativo (informática)

Editar parámetros
- espectáculo (una entrada) voice_clone.py modifique lo siguiente:
  - context_audio_path = "sample.mp3"(ruta de audio).
  - context_text = "你好，这是我的测试音频"(texto transcrito).
  - text = "今天天气很好"(texto por generar).
  - output_filename = "output.wav"(nombre del archivo de salida).
programa de carrera
- Introdúcelo en el terminal:
```
python voice_clone.py
```
- El audio generado se guarda en la carpeta del proyecto.

Clonación de voz en la nube (Modal)

Editar parámetros
- espectáculo (una entrada) modal_voice_cloning.py con los mismos parámetros que en local:
  - context_audio_path = "sample.mp3".
  - context_text = "你好，这是我的测试音频".
  - text = "今天天气很好".
  - output_filename = "output.wav".
programa de carrera
- Introdúcelo en el terminal:
```
modal run modal_voice_cloning.py
```
- Modal utilizará la GPU en la nube para procesar la tarea y descargará el archivo de salida cuando haya terminado.

Ajuste de la longitud de la secuencia de modelos

Si la muestra de audio es larga (más de 2-3 minutos), pueden producirse errores de dimensión tensorial.
Solución:
1. espectáculo (una entrada) models.py Documentación.
2. localice llama3_2_1B() modificando la función max_seq_len Parámetros:
```
def llama3_2_1B():
return llama3_2.llama3_2(max_seq_len=4096, ...)
```
3. seguro llama3_2_100M() es el mismo, guárdelo y vuelva a ejecutarlo.

Función destacada Operación

Aceleración en la nube (Modal)

Modal ofrece GPU en la nube para quienes no disponen de dispositivos locales potentes.
Fácil de usar, sólo tiene que instalar Modal y ejecutar las secuencias de comandos adecuadas para un procesamiento más rápido que el local.

Procesamiento de audio largo

El ajuste por defecto es para muestras de hasta 2 minutos 50 segundos.
Hay que ajustar el audio más largo max_seq_len(como se ha descrito anteriormente), o recorte la muestra a la longitud recomendada.

Preguntas frecuentes

error de dimensión del tensor
aumentando max_seq_len o acortar las muestras de audio.
CUDA sin memoria
Utilice muestras más cortas o cambie a una ejecución Modal en la nube.
Fallo en la descarga del modelo
Comprueba las fichas y redes de Cara Abrazada para asegurarte de que se han aceptado las condiciones del modelo.

escenario de aplicación

creación de contenidos
- Descripción de la escena
  Los presentadores pueden generar narraciones de vídeo con su propia voz. Cargue un audio de autointroducción, introduzca un guión y genere su voz en cuestión de minutos, eliminando la necesidad de repetir grabaciones.
Apoyo educativo
- Descripción de la escena
  El profesor clona su propia voz e introduce las conferencias del curso para generar el audio didáctico. Los alumnos pueden volver a escucharlo en cualquier momento, lo que resulta idóneo para la enseñanza a distancia.
desarrollo de juegos
- Descripción de la escena
  Los desarrolladores ponen voz a los personajes de los juegos. Graba unas cuantas muestras para generar varios fragmentos de diálogo y aumentar el realismo de los personajes.

CONTROL DE CALIDAD

¿Qué longitud debe tener la muestra de audio?
Recomendado 2-3 minutos. Demasiado corto para obtener malos resultados, demasiado largo para ajustar los parámetros.
¿Por qué la voz generada no se parece mucho a mí?
El modelado es limitado, conserva las características del sonido pero no es perfecto. Asegúrate de que la muestra es clara y prueba varias veces con diferentes textos.
¿Cuál es la diferencia entre Modal y ejecutar localmente?
Modal utiliza GPUs en la nube y es rápido para usuarios sin dispositivos potentes. La ejecución local es gratuita pero requiere una buena tarjeta gráfica.