Clonación de voz CSM: Clonación rápida de voz con CSM-1B
Últimos recursos sobre IAPublicado hace 6 meses Círculo de intercambio de inteligencia artificial 12K 00
Introducción general
CSM Voice Cloning es un proyecto de código abierto desarrollado por Isaiah Bjork y alojado en GitHub. Se basa en el modelo CSM-1B de Sesame, que permite a los usuarios clonar su propia voz y generar su propia voz personalizada simplemente proporcionando una muestra de audio. La herramienta admite tanto ejecuciones locales en la GPU como ejecuciones modales en la nube, lo que la hace adecuada para creadores de contenidos, desarrolladores o cualquier persona interesada en la tecnología de la voz. Aunque los resultados de la clonación no son los más perfectos, la voz generada conserva algunas de las características de la voz de destino y el efecto es reconocible. Requiere algunas bases técnicas, como instalar Python y configurar el entorno, pero hay disponible oficialmente una guía detallada. El proyecto es completamente gratuito y la comunidad está invitada a contribuir con mejoras en el código.

Lista de funciones
- Clonación del habla: cargue muestras de audio para generar un habla que suene similar a la muestra.
- Texto a voz: introduce texto y genera archivos de audio con voces clonadas.
- Ejecución local: utilice su GPU personal para procesar las tareas de generación de voz.
- Se ejecuta en la nube: Acelerado por GPUs en la nube a través de la plataforma Modal.
- Soporte de código abierto: el código es público y puede ser modificado u optimizado por el usuario.
- Admite los formatos de audio habituales: acepta archivos MP3 o WAV como muestras.
- Ajuste de parámetros: Permite al usuario ajustar la configuración del modelo para adaptarse a diferentes longitudes de audio.
Utilizar la ayuda
Proceso de instalación
Para utilizar CSM Voice Cloning, los usuarios deben configurar primero el entorno de ejecución. A continuación se detallan los pasos a seguir:
Ejecutar la instalación localmente
- Compruebe los requisitos de hardware y software
- Requiere Python 3.10 o posterior.
- Se necesitan tarjetas gráficas compatibles con NVIDIA CUDA y suficiente memoria de vídeo para el funcionamiento local.
- Asegúrese de que dispone de conexión a Internet para descargar los modelos y las dependencias.
- Repositorio de código clonado
- Abra un terminal (CMD o PowerShell para Windows, Bash para Linux/Mac).
- Introduce el comando:
git clone https://github.com/isaiahbjork/csm-voice-cloning.git cd csm-voice-cloning
- Instalación de dependencias
- Se ejecuta en el terminal:
pip install -r requirements.txt
- Esto instalará las librerías necesarias como PyTorch, Hugging Face, etc.
- Se ejecuta en el terminal:
Instalación de Cloud Run (Modal)
- Instalación de Modal
- Se ejecuta en el terminal:
pip install modal
- Se ejecuta en el terminal:
- Configuración de la autenticación modal
- Introduce el comando:
modal token new
- Siga las instrucciones para iniciar sesión en su cuenta Modal o crear una cuenta nueva.
- Introduce el comando:
Configuración de la cuenta "Cara de abrazo
- Registrarse y obtener una ficha
- Visite el sitio web de Hugging Face para registrarse o iniciar sesión.
- existe Página del modelo Sesame CSM-1B Haga clic en "Acceder al repositorio" y acepte las condiciones.
- Generar tokens de API: haz clic en tu avatar en la esquina superior derecha -> Configuración -> Fichas -> Nuevo Token.
- Token de configuración
- Método 1: Escriba en el terminal:
export HF_TOKEN="你的令牌"
- Método 2: Modificación
voice_clone.py
encuentre el archivoos.environ["HF_TOKEN"]
Rellena la ficha.
- Método 1: Escriba en el terminal:
Preparación de muestras de audio
- Grabar audio
- Grabe un clip de audio claro de 2-3 minutos, preferiblemente sin ruido de fondo.
- Guardar en formato MP3 o WAV, por ejemplo.
sample.mp3
.
- Transcripción del texto
- gasto o desembolso Susurro u otra herramienta para transcribir el contenido del audio, anotando el texto exacto (por ejemplo, "Hola, este es mi audio de prueba").
Funciones principales
clon de hablante nativo (informática)
- Editar parámetros
- espectáculo (una entrada)
voice_clone.py
modifique lo siguiente:context_audio_path = "sample.mp3"
(ruta de audio).context_text = "你好,这是我的测试音频"
(texto transcrito).text = "今天天气很好"
(texto por generar).output_filename = "output.wav"
(nombre del archivo de salida).
- espectáculo (una entrada)
- programa de carrera
- Introdúcelo en el terminal:
python voice_clone.py
- El audio generado se guarda en la carpeta del proyecto.
- Introdúcelo en el terminal:
Clonación de voz en la nube (Modal)
- Editar parámetros
- espectáculo (una entrada)
modal_voice_cloning.py
con los mismos parámetros que en local:context_audio_path = "sample.mp3"
.context_text = "你好,这是我的测试音频"
.text = "今天天气很好"
.output_filename = "output.wav"
.
- espectáculo (una entrada)
- programa de carrera
- Introdúcelo en el terminal:
modal run modal_voice_cloning.py
- Modal utilizará la GPU en la nube para procesar la tarea y descargará el archivo de salida cuando haya terminado.
- Introdúcelo en el terminal:
Ajuste de la longitud de la secuencia de modelos
- Si la muestra de audio es larga (más de 2-3 minutos), pueden producirse errores de dimensión tensorial.
- Solución:
- espectáculo (una entrada)
models.py
Documentación. - localice
llama3_2_1B()
modificando la funciónmax_seq_len
Parámetros:def llama3_2_1B(): return llama3_2.llama3_2(max_seq_len=4096, ...)
- seguro
llama3_2_100M()
es el mismo, guárdelo y vuelva a ejecutarlo.
- espectáculo (una entrada)
Función destacada Operación
Aceleración en la nube (Modal)
- Modal ofrece GPU en la nube para quienes no disponen de dispositivos locales potentes.
- Fácil de usar, sólo tiene que instalar Modal y ejecutar las secuencias de comandos adecuadas para un procesamiento más rápido que el local.
Procesamiento de audio largo
- El ajuste por defecto es para muestras de hasta 2 minutos 50 segundos.
- Hay que ajustar el audio más largo
max_seq_len
(como se ha descrito anteriormente), o recorte la muestra a la longitud recomendada.
Preguntas frecuentes
- error de dimensión del tensor
aumentandomax_seq_len
o acortar las muestras de audio. - CUDA sin memoria
Utilice muestras más cortas o cambie a una ejecución Modal en la nube. - Fallo en la descarga del modelo
Comprueba las fichas y redes de Cara Abrazada para asegurarte de que se han aceptado las condiciones del modelo.
escenario de aplicación
- creación de contenidos
- Descripción de la escena
Los presentadores pueden generar narraciones de vídeo con su propia voz. Cargue un audio de autointroducción, introduzca un guión y genere su voz en cuestión de minutos, eliminando la necesidad de repetir grabaciones.
- Descripción de la escena
- Apoyo educativo
- Descripción de la escena
El profesor clona su propia voz e introduce las conferencias del curso para generar el audio didáctico. Los alumnos pueden volver a escucharlo en cualquier momento, lo que resulta idóneo para la enseñanza a distancia.
- Descripción de la escena
- desarrollo de juegos
- Descripción de la escena
Los desarrolladores ponen voz a los personajes de los juegos. Graba unas cuantas muestras para generar varios fragmentos de diálogo y aumentar el realismo de los personajes.
- Descripción de la escena
CONTROL DE CALIDAD
- ¿Qué longitud debe tener la muestra de audio?
Recomendado 2-3 minutos. Demasiado corto para obtener malos resultados, demasiado largo para ajustar los parámetros. - ¿Por qué la voz generada no se parece mucho a mí?
El modelado es limitado, conserva las características del sonido pero no es perfecto. Asegúrate de que la muestra es clara y prueba varias veces con diferentes textos. - ¿Cuál es la diferencia entre Modal y ejecutar localmente?
Modal utiliza GPUs en la nube y es rápido para usuarios sin dispositivos potentes. La ejecución local es gratuita pero requiere una buena tarjeta gráfica.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...