VoiceCraft: herramienta de código abierto de clonación de voz sin muestras y conversión de texto a voz

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

62.6K 00

Introducción general

VoiceCraft es una herramienta de código abierto para la edición del habla y la síntesis del habla sin muestras basada en el modelo de lenguaje Neural Codec. Emplea un innovador método de generación de secuencias codificadas que permite realizar operaciones de inserción, eliminación y sustitución en secuencias de voz existentes para generar un habla editada natural y coherente. Además, VoiceCraft admite la síntesis del habla con muestra cero, lo que elimina la necesidad de realizar ajustes adicionales para hablantes específicos. La herramienta obtiene buenos resultados en varias tareas de procesamiento del habla, superando con creces a los actuales modelos SOTA de la industria.

Lista de funciones

Edición de voz: admite operaciones de inserción, eliminación y sustitución para generar una voz de edición natural y fluida.
Síntesis de voz de muestra cero: genera la voz del locutor de destino sin ajustes adicionales.
Basado en la arquitectura Transformer: se utilizan técnicas de enmascaramiento causal y apilamiento retardado para mejorar la calidad de la generación.
Modelos de código abierto: descarga y uso gratuitos en Huggingface y AI Express.
Interfaz de usuario interactiva: la integración con la biblioteca Gradio permite a los usuarios controlar y probar modelos de forma intuitiva.

Utilizar la ayuda

Proceso de instalación

Clona el repositorio del proyecto en un directorio local:

git clone git@github.com:jasonppy/VoiceCraft.git
cd VoiceCraft

Asegúrate de que Docker y NVIDIA Container Toolkit están instalados en tu sistema (los sistemas Windows tienen controladores integrados):
```
sudo apt-get install -y nvidia-container-toolkit-base
```
Cree la imagen Docker:
```
docker build --tag "voicecraft" .
```
Inicie un contenedor existente o cree uno nuevo e introduzca todas las GPU:
```
./start-jupyter.sh  # Linux
start-jupyter.bat   # Windows
```
Abra un navegador y acceda a la URL que aparece en el terminal:
```
docker logs jupyter
```

Opcional: acceso al interior del contenedor desde otra terminal:

docker exec -it jupyter /bin/bash
export USER=(your_linux_username_used_above)
export HOME=/home/$USER
sudo apt-get update

Compruebe que la tarjeta gráfica es visible en el contenedor:
```
nvidia-smi
```
Abrir en el navegadorinference_tts.ipynbLa célula se ejecuta paso a paso.

Entorno

Crear y activar un entorno virtual:

conda create -n voicecraft python=3.9.16
conda activate voicecraft

Instale las dependencias necesarias:

pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
pip install xformers==0.0.22
pip install torchaudio==2.0.2 torch==2.0.1
apt-get install ffmpeg
apt-get install espeak-ng
pip install tensorboard==2.16.2
pip install phonemizer==3.2.1
pip install datasets==2.16.0
pip install torchmetrics==0.11.1
pip install huggingface_hub==0.22.2
conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
mfa model download dictionary english_us_arpa
mfa model download acoustic english_us_arpa
conda install -n voicecraft ipykernel --no-deps --force-reinstall

Ejemplo de razonamiento

Razonamiento de la edición de voz:

python phonemize_encodec_encode_hf.py --dataset_size xs --download_to path/to/store_huggingface_downloads --save_dir path/to/store_extracted_codes_and_phonemes --encodec_model_path path/to/encodec_model --mega_batch_size 120 --batch_size 32 --max_len 30000

Inferencia de síntesis del habla con muestra cero:
```
python tts_demo.py -h
```

Gradio

Ejecútalo en Colab:
```
Open in Colab
```

Funcionando localmente:

apt-get install -y espeak espeak-data libespeak1 libespeak-dev
apt-get install -y festival*
apt-get install -y build-essential
apt-get install -y flac libasound2-dev libsndfile1-dev vorbis-tools
apt-get install -y libxml2-dev libxslt-dev zlib1g-dev
pip install -r gradio_requirements.txt
python gradio_app.py

problemas comunes

¿Cómo mejorar la naturalidad del habla generada? Asegúrese de que el contenido del texto de entrada es coherente con el estilo y el contexto de la muestra de voz de destino.
¿Qué debo hacer si el archivo de voz generado tiene ruido? Pruebe a utilizar muestras de habla de mayor calidad o a ajustar los parámetros del modelo.

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

ImageFX: una herramienta de generación de imágenes de Google Labs que ofrece opciones únicas de agregación de palabras clave de imágenes.

Últimos recursos sobre IA # AI generación de imágenes en línea

hace 1 año

062.2K

Step-Video-T2V: un modelo de vídeo de Vincennes que admite la entrada multilingüe y la generación de vídeos largos

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI de texto a vídeo

hace 1 año

058.4K

Avcado AI: un asistente de salud que escanea las etiquetas de los alimentos y analiza sus ingredientes

Últimos recursos sobre IA # AI Asistente de Eficiencia Vital

hace 12 meses

052.5K

LangExtract - Biblioteca Python de código abierto de Google para extraer información estructurada

Últimos recursos sobre IA

hace 7 meses

048.6K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

VoiceCraft: herramienta de código abierto de clonación de voz sin muestras y conversión de texto a voz

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Entorno

Ejemplo de razonamiento

Gradio

problemas comunes

Happy Scribe: Plataforma de transcripción de audio y subtitulación de vídeo | Software gratuito de subtitulación de vídeo

Zide Speech: Plataforma inteligente de síntesis del habla|Clonación del habla

Artículos relacionados

ImageFX: una herramienta de generación de imágenes de Google Labs que ofrece opciones únicas de agregación de palabras clave de imágenes.

Step-Video-T2V: un modelo de vídeo de Vincennes que admite la entrada multilingüe y la generación de vídeos largos

Avcado AI: un asistente de salud que escanea las etiquetas de los alimentos y analiza sus ingredientes

LangExtract - Biblioteca Python de código abierto de Google para extraer información estructurada

Sin comentarios

Últimas colecciones

Últimos artículos

VoiceCraft: herramienta de código abierto de clonación de voz sin muestras y conversión de texto a voz

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Entorno

Ejemplo de razonamiento

Gradio

problemas comunes

Happy Scribe: Plataforma de transcripción de audio y subtitulación de vídeo | Software gratuito de subtitulación de vídeo

Zide Speech: Plataforma inteligente de síntesis del habla|Clonación del habla

Artículos relacionados

ImageFX: una herramienta de generación de imágenes de Google Labs que ofrece opciones únicas de agregación de palabras clave de imágenes.

Step-Video-T2V: un modelo de vídeo de Vincennes que admite la entrada multilingüe y la generación de vídeos largos

Avcado AI: un asistente de salud que escanea las etiquetas de los alimentos y analiza sus ingredientes

LangExtract - Biblioteca Python de código abierto de Google para extraer información estructurada

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos