MLX-Audio: herramienta de conversión de texto a voz basada en el framework MLX de Apple.

Introducción general

MLX-Audio es una herramienta de código abierto desarrollada sobre el marco MLX de Apple, centrada en las capacidades de conversión de texto a voz (TTS) y de voz a voz (STS). Aprovecha la potencia de cálculo de Apple Silicon, como los chips de la serie M, para ofrecer soluciones de síntesis de voz eficaces y rápidas. Tanto si se trata de convertir texto en habla natural y fluida como de generar audio nuevo a partir del habla existente, MLX-Audio puede hacerlo todo. Desarrollada por el usuario de GitHub Blaizzy (Prince Canuma), la herramienta pretende ofrecer a desarrolladores, investigadores y usuarios particulares una opción de generación de voz de alto rendimiento que funcione en macOS. Al tratarse de un proyecto de código abierto, los usuarios pueden descargar, modificar y aportar código libremente, por lo que resulta ideal para aplicaciones que requieran un procesamiento localizado del habla.

 

Lista de funciones

  • Texto a voz (TTS): Transforma rápidamente el texto introducido en habla natural, admitiendo una amplia gama de opciones de modelos.
  • Voz a voz (STS)Generación de nuevos contenidos de audio a partir de muestras de voz existentes.
  • Razonamiento eficienteOptimizado para Apple Silicon, proporciona un rápido rendimiento de generación de voz.
  • Compatibilidad con varios modelos: Admite una variedad de modelos de síntesis de voz preentrenados para satisfacer diferentes necesidades.
  • Personalización de código abiertoSe proporciona el código fuente completo y los usuarios pueden ajustar la funcionalidad u optimizar el modelo según sus necesidades.
  • funcionamiento local: No es necesario depender de la nube, todas las operaciones pueden realizarse en dispositivos personales para proteger la privacidad.

 

Utilizar la ayuda

Proceso de instalación

MLX-Audio es una herramienta basada en Python con un proceso de instalación sencillo que se basa en el código de los repositorios de GitHub y algunas librerías Python necesarias. A continuación se detallan los pasos de instalación:

  1. Garantizar la preparación medioambiental
    • Requisitos del sistema: macOS (recomendado para dispositivos con chips de la serie M, como M1, M2, etc.).
    • Instala Python 3.8 o posterior (se recomienda Homebrew):brew install python).
    • Instalar Git (para clonar repositorios):brew install git.
  2. Clon MLX-Audio Warehouse
    Abra un terminal e introduzca el siguiente comando para descargar el código fuente:

    git clone https://github.com/Blaizzy/mlx-audio.git

Una vez finalizada la descarga, vaya al directorio del proyecto:

cd mlx-audio
  1. Instalación de dependencias
    Los proyectos suelen ofrecer un requirements.txt que enumera las bibliotecas Python necesarias. Ejecute el siguiente comando para instalarlas:

    pip install -r requirements.txt
    

    Si no tiene este archivo, consulte el README oficial, las dependencias comunes pueden incluir mlx(el marco de aprendizaje automático de Apple) y bibliotecas de procesamiento de audio como numpy tal vez soundfile.

  2. Verificar la instalación
    Una vez finalizada la instalación, ejecute un sencillo comando de prueba para comprobar que el entorno está configurado correctamente:

    python -m mlx_audio.tts.generate --text "Hello, world"
    

    Si tiene éxito, oirá el discurso generado, o se generará un archivo de audio en el directorio actual.

Cómo utilizar MLX-Audio

MLX-Audio ofrece dos formas de utilizar la interfaz de línea de comandos (CLI) y el script de Python, y a continuación se describe detalladamente el flujo de operación de las funciones principales.

Texto a voz (TTS)

Esta es la función principal de MLX-Audio para convertir texto en voz.

  • procedimiento::
    1. Texto preparadoDecida qué texto desea convertir, por ejemplo, "Hola, bienvenido a la experiencia MLX-Audio".
    2. Ejecutar comandoEscriba en el terminal:
      python -m mlx_audio.tts.generate --text "你好,欢迎体验 MLX-Audio" --output "welcome.wav"
      
      • --text: Especifica el texto de entrada.
      • --output: Especifique el nombre del archivo de audio de salida (opcional, por defecto el archivo se generará en el directorio actual).
    3. Resultados de la inspecciónUna vez ejecutado el comando, el archivo de audio generado (p. ej. welcome.wav) se guardará en el directorio actual y se abrirá con el reproductor para escuchar la voz.
  • Opciones avanzadas::
    • Especifique el modelo: si se admiten varios modelos, se pueden especificar mediante la opción --model Selección de parámetros, por ejemplo:
      python -m mlx_audio.tts.generate --text "Hello" --model "model_name"
      
    • Ajuste de la velocidad o el tono del habla: dependiendo del LÉAME o de la descripción del código, es posible que se admitan parámetros adicionales (p. ej. --speed tal vez --pitch), en función de la realización.

Voz a voz (STS)

Esta función permite a los usuarios generar nuevos contenidos de voz a partir del audio existente.

  • procedimiento::
    1. Preparación de la entrada de audioAsegúrese de que dispone de un archivo de audio en formato WAV (p. ej. input.wav), que puede grabarse en un teléfono móvil u obtenerse de otras fuentes.
    2. Ejecutar comandoIntroduzca el siguiente comando:
      python -m mlx_audio.sts.generate --input "input.wav" --output "output.wav"
      
      • --inputEspecifica la ruta del archivo de audio de entrada.
      • --outputEspecifica la ruta del archivo de salida.
    3. Resultados de la inspección: El nuevo audio generado se guarda como output.wavpuedes comprobar el efecto con el reproductor.
  • advertencia::
    • La calidad del audio de entrada afecta a la salida y se recomienda una grabación clara.
    • Si necesita personalizar el contenido generado, puede que necesite parámetros adicionales, consulte la documentación del proyecto.

Desarrollo a medida

Dado que MLX-Audio es un proyecto de código abierto, los usuarios pueden modificar el código para conseguir más funciones.

  • mover::
    1. Abra la carpeta del proyecto y utilice un editor de texto (por ejemplo, VS Code) para ver el archivo mlx_audio Archivos Python en el directorio.
    2. Modifique el código según sea necesario, por ejemplo, añadiendo nuevos modelos de voz o ajustando la lógica de generación.
    3. Guarde y ejecute la prueba:
      python your_script.py
      

Detalles del proceso de operación funcional

Generación rápida de voz

  • toma: Desea probar rápidamente el efecto de la herramienta.
  • flujos de trabajo::
    1. Abra un terminal y vaya a mlx-audio Catálogo.
    2. Introduzca un comando TTS simple:
      python -m mlx_audio.tts.generate --text "测试语音生成"
      
    3. Espera unos segundos (dependiendo de la longitud del texto y del rendimiento del dispositivo) y el archivo de audio se generará automáticamente.
  • al final: Genera un archivo de audio con un nombre predeterminado (p. ej. output.wav), reprodúcelo directamente.

Tratamiento de textos largos

  • toma: Necesidad de convertir un artículo en discurso.
  • flujos de trabajo::
    1. Guarde el texto como un archivo (por ejemplo text.txt), el contenido puede ser de varios párrafos.
    2. Utilice el comando para leer el archivo:
      python -m mlx_audio.tts.generate --file "text.txt" --output "article.wav"
      
      • --fileEspecifique la ruta del archivo de texto (asegúrese de que el proyecto soporta este parámetro, si no, utilice el script de Python para leer el archivo y llamarlo).
    3. Compruebe los datos generados article.wavLa voz debe ser natural y fluida.

Generación de lotes

  • toma: Necesidad de generar voz para varios textos.
  • flujos de trabajo::
    1. Escriba un sencillo script en Python (por ejemplo batch_generate.py):
      from mlx_audio.tts import generate
      texts = ["文本1", "文本2", "文本3"]
      for i, text in enumerate(texts):
      generate(text=text, output=f"output_{i}.wav")
      
    2. Ejecuta el script:
      python batch_generate.py
      
    3. Comprueba si se han generado varios archivos de audio.

consejo

  • optimización del rendimientoCuando se ejecuta en dispositivos de silicio M-Series, asegúrese de que no hay otras tareas de alta carga ocupando recursos para una velocidad óptima.
  • Problemas de depuraciónSi se encuentra con un error (por ejemplo, una dependencia que falta), compruebe la salida del terminal y siga las instrucciones para instalar la biblioteca que falta.
  • Apoyo comunitarioSi la funcionalidad no está clara, envíe una incidencia a GitHub o consulte el debate existente.

Con estos pasos, los usuarios pueden empezar a utilizar MLX-Audio fácilmente, tanto si están generando voz sencilla como si están desarrollando aplicaciones complejas.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...