F5-TTS: clonación de voz sin muestras para generar voces clonadas suaves y emocionalmente ricas.
Últimos recursos sobre IAActualizado hace 6 meses Círculo de intercambio de inteligencia artificial 4.2K 00
Introducción general
F5-TTS es un novedoso sistema de conversión de texto a voz (TTS) no autorregresivo basado en un convertidor de difusión de flujo ajustado (Diffusion TransformadorF5-TTS admite el entrenamiento en conjuntos de datos multilingües con una síntesis muy natural y eficaz). El sistema mejora significativamente la calidad y la eficacia de la síntesis utilizando el modelo ConvNeXt para optimizar la representación del texto y facilitar la alineación con el habla.F5-TTS admite el entrenamiento en conjuntos de datos multilingües con capacidades de muestra cero altamente naturales y expresivas, cambio de código sin fisuras y eficacia en el control de la velocidad. El proyecto es de código abierto y pretende fomentar el desarrollo comunitario.
Este modelo prescinde de los complejos módulos de los sistemas TTS tradicionales, como los modelos de duración, la alineación de fonemas y los codificadores de texto, y en su lugar genera el habla rellenando el texto con la misma longitud que el habla de entrada y aplicando métodos de eliminación de ruido.
Una de las principales innovaciones del F5-TTS es Muestreo de oscilación que mejora significativamente la eficacia en la fase de inferencia y permite el procesamiento en tiempo real. Esta característica es adecuada para escenarios que requieren una síntesis rápida del habla, como los asistentes de voz y los sistemas de habla interactivos.
Compatibilidad con F5-TTS clonación del habla con muestra ceroTambién ofrece la posibilidad de generar una amplia gama de voces y acentos sin necesidad de grandes cantidades de datos de entrenamiento. control emocional responder cantando Ajuste de la velocidad Funciones. Gracias a su gran compatibilidad multilingüe, el sistema es especialmente adecuado para aplicaciones que requieren la generación de diversos contenidos de audio, como audiolibros, módulos de aprendizaje electrónico y materiales de marketing.


Lista de funciones
- Conversión de texto a voz: Convierte el texto introducido en voz natural y fluida.
- Generación sin muestras: genere habla de alta calidad sin muestras pregrabadas.
- Reproducción emocional: apoyo a la generación de discurso con emociones.
- Control de velocidad: el usuario puede controlar la velocidad de generación del habla.
- Soporte multilingüe: admite la generación de voz en varios idiomas.
- Código fuente abierto: se proporciona el código completo y los puntos de control del modelo para facilitar el uso y el desarrollo por parte de la comunidad.
Utilizar la ayuda
Proceso de instalación
conda create -n f5-tts python=3.10 conda activate f5-tts sudo apt update sudo apt install -y ffmpeg pip uninstall torch torchvision torchaudio transformers # 安装 PyTorch(包含 CUDA 支持) pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 安装 transformers pip install transformers git clone https://github.com/SWivid/F5-TTS.git cd F5-TTS pip install -e . # Launch a Gradio app (web interface) f5-tts_infer-gradio # Specify the port/host f5-tts_infer-gradio --port 7860 --host 0.0.0.0 # Launch a share link f5-tts_infer-gradio --share
Comando de instalación con un solo clic de F5-TTS
conda create -n f5-tts python=3.10 -y && \ conda activate f5-tts && \ sudo apt update && sudo apt install -y ffmpeg && \ pip uninstall -y torch torchvision torchaudio transformers && \ pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 transformers && \ git clone https://github.com/SWivid/F5-TTS.git && \ cd F5-TTS && \ pip install -e . && \ f5-tts_infer-gradio --port 7860 --host 0.0.0.0
F5-TTS google Colab en marcha
Nota: es necesario registrarse en ngrok para solicitar una clave que permita penetrar en la intranet.

!pip install pyngrok transformers gradio # 导入所需库 import os from pyngrok import ngrok !apt-get update && apt-get install -y ffmpeg !pip uninstall -y torch torchvision torchaudio transformers !pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 transformers # 克隆并安装项目 !git clone https://github.com/SWivid/F5-TTS.git %cd F5-TTS !pip install -e . !ngrok config add-authtoken 2hKI7tLqJVdnbgM8pxM4nyYP7kQ_3vL3RWtqXQUUdwY5JE4nj # 配置 ngrok 和 gradio import gradio as gr from pyngrok import ngrok import threading import time import socket import requests def is_port_in_use(port): with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s: return s.connect_ex(('localhost', port)) == 0 def wait_for_server(port, timeout=60): start_time = time.time() while time.time() - start_time < timeout: if is_port_in_use(port): try: response = requests.get(f'http://localhost:{port}') if response.status_code == 200: return True except: pass time.sleep(2) return False # 确保 ngrok 没有在运行 ngrok.kill() # 在新线程中启动 Gradio def run_gradio(): import sys import f5_tts.infer.infer_gradio sys.argv = ['f5-tts_infer-gradio', '--port', '7860', '--host', '0.0.0.0'] f5_tts.infer.infer_gradio.main() thread = threading.Thread(target=run_gradio) thread.daemon = True thread.start() # 等待 Gradio 服务启动 print("等待 Gradio 服务启动...") if wait_for_server(7860): print("Gradio 服务已启动") # 启动 ngrok public_url = ngrok.connect(7860) print(f"\n=== 访问信息 ===") print(f"Ngrok URL: {public_url}") print("===============\n") else: print("Gradio 服务启动超时") # 保持程序运行 while True: try: time.sleep(1) except KeyboardInterrupt: ngrok.kill() break !f5-tts_infer-cli \ --model "F5-TTS" \ --ref_audio "/content/test.MP3" \ --ref_text "欢迎来到首席AI分享圈,微软发布了一款基于大模型的屏幕解析工具OmniParser.这款工具是专为增强用户界面自动化而设计的它." \ --gen_text "欢迎来到首席AI分享圈,今天将为大家详细演示另一款开源语音克隆项目。"
Proceso de utilización
Modelos de formación
- Configure los ajustes de aceleración, como el uso de varias GPU y FP16:
accelerate config
- Iniciar la formación:
accelerate launch test_train.py
inferencia
- Descargar puntos de control de modelos preentrenados.
- Razonamiento único:
- Modifique el archivo de configuración para cumplir los requisitos, por ejemplo, duración y tamaño de paso fijos:
python test_infer_single.py
- Modifique el archivo de configuración para cumplir los requisitos, por ejemplo, duración y tamaño de paso fijos:
- Razonamiento por lotes:
- Prepare el conjunto de datos de prueba y actualice la ruta:
bash test_infer_batch.sh
- Prepare el conjunto de datos de prueba y actualice la ruta:
Procedimiento de funcionamiento detallado
- Conversión de texto a voz::
- Una vez introducido el texto, el sistema lo convierte automáticamente en voz, y el usuario puede seleccionar diferentes estilos de voz y emociones.
- Generación de muestra cero::
- El usuario no necesita proporcionar muestras pregrabadas y el sistema genera un habla de alta calidad basada en el texto introducido.
- reproducción emocional::
- Los usuarios pueden seleccionar diferentes etiquetas de emoción y el sistema generará el habla con la emoción correspondiente.
- control de velocidad::
- Los usuarios pueden controlar la velocidad de generación del habla ajustando los parámetros para satisfacer las necesidades de distintos escenarios.
- Soporte multilingüe::
- El sistema admite la generación de voz en varios idiomas, y los usuarios pueden elegir diferentes lenguas según sus necesidades.
Instalador F5 One-Click
Quark: https://pan.quark.cn/s/3a7054a379ce
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...