MLX-Audio: herramienta de conversión de texto a voz basada en el framework MLX de Apple.
Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial 2.3K 00
Introducción general
MLX-Audio es una herramienta de código abierto desarrollada sobre el marco MLX de Apple, centrada en las capacidades de conversión de texto a voz (TTS) y de voz a voz (STS). Aprovecha la potencia de cálculo de Apple Silicon, como los chips de la serie M, para ofrecer soluciones de síntesis de voz eficaces y rápidas. Tanto si se trata de convertir texto en habla natural y fluida como de generar audio nuevo a partir del habla existente, MLX-Audio puede hacerlo todo. Desarrollada por el usuario de GitHub Blaizzy (Prince Canuma), la herramienta pretende ofrecer a desarrolladores, investigadores y usuarios particulares una opción de generación de voz de alto rendimiento que funcione en macOS. Al tratarse de un proyecto de código abierto, los usuarios pueden descargar, modificar y aportar código libremente, por lo que resulta ideal para aplicaciones que requieran un procesamiento localizado del habla.
Lista de funciones
- Texto a voz (TTS): Transforma rápidamente el texto introducido en habla natural, admitiendo una amplia gama de opciones de modelos.
- Voz a voz (STS)Generación de nuevos contenidos de audio a partir de muestras de voz existentes.
- Razonamiento eficienteOptimizado para Apple Silicon, proporciona un rápido rendimiento de generación de voz.
- Compatibilidad con varios modelos: Admite una variedad de modelos de síntesis de voz preentrenados para satisfacer diferentes necesidades.
- Personalización de código abiertoSe proporciona el código fuente completo y los usuarios pueden ajustar la funcionalidad u optimizar el modelo según sus necesidades.
- funcionamiento local: No es necesario depender de la nube, todas las operaciones pueden realizarse en dispositivos personales para proteger la privacidad.
Utilizar la ayuda
Proceso de instalación
MLX-Audio es una herramienta basada en Python con un proceso de instalación sencillo que se basa en el código de los repositorios de GitHub y algunas librerías Python necesarias. A continuación se detallan los pasos de instalación:
- Garantizar la preparación medioambiental
- Requisitos del sistema: macOS (recomendado para dispositivos con chips de la serie M, como M1, M2, etc.).
- Instala Python 3.8 o posterior (se recomienda Homebrew):
brew install python
). - Instalar Git (para clonar repositorios):
brew install git
.
- Clon MLX-Audio Warehouse
Abra un terminal e introduzca el siguiente comando para descargar el código fuente:git clone https://github.com/Blaizzy/mlx-audio.git
Una vez finalizada la descarga, vaya al directorio del proyecto:
cd mlx-audio
- Instalación de dependencias
Los proyectos suelen ofrecer unrequirements.txt
que enumera las bibliotecas Python necesarias. Ejecute el siguiente comando para instalarlas:pip install -r requirements.txt
Si no tiene este archivo, consulte el README oficial, las dependencias comunes pueden incluir
mlx
(el marco de aprendizaje automático de Apple) y bibliotecas de procesamiento de audio comonumpy
tal vezsoundfile
. - Verificar la instalación
Una vez finalizada la instalación, ejecute un sencillo comando de prueba para comprobar que el entorno está configurado correctamente:python -m mlx_audio.tts.generate --text "Hello, world"
Si tiene éxito, oirá el discurso generado, o se generará un archivo de audio en el directorio actual.
Cómo utilizar MLX-Audio
MLX-Audio ofrece dos formas de utilizar la interfaz de línea de comandos (CLI) y el script de Python, y a continuación se describe detalladamente el flujo de operación de las funciones principales.
Texto a voz (TTS)
Esta es la función principal de MLX-Audio para convertir texto en voz.
- procedimiento::
- Texto preparadoDecida qué texto desea convertir, por ejemplo, "Hola, bienvenido a la experiencia MLX-Audio".
- Ejecutar comandoEscriba en el terminal:
python -m mlx_audio.tts.generate --text "你好,欢迎体验 MLX-Audio" --output "welcome.wav"
--text
: Especifica el texto de entrada.--output
: Especifique el nombre del archivo de audio de salida (opcional, por defecto el archivo se generará en el directorio actual).
- Resultados de la inspecciónUna vez ejecutado el comando, el archivo de audio generado (p. ej.
welcome.wav
) se guardará en el directorio actual y se abrirá con el reproductor para escuchar la voz.
- Opciones avanzadas::
- Especifique el modelo: si se admiten varios modelos, se pueden especificar mediante la opción
--model
Selección de parámetros, por ejemplo:python -m mlx_audio.tts.generate --text "Hello" --model "model_name"
- Ajuste de la velocidad o el tono del habla: dependiendo del LÉAME o de la descripción del código, es posible que se admitan parámetros adicionales (p. ej.
--speed
tal vez--pitch
), en función de la realización.
- Especifique el modelo: si se admiten varios modelos, se pueden especificar mediante la opción
Voz a voz (STS)
Esta función permite a los usuarios generar nuevos contenidos de voz a partir del audio existente.
- procedimiento::
- Preparación de la entrada de audioAsegúrese de que dispone de un archivo de audio en formato WAV (p. ej.
input.wav
), que puede grabarse en un teléfono móvil u obtenerse de otras fuentes. - Ejecutar comandoIntroduzca el siguiente comando:
python -m mlx_audio.sts.generate --input "input.wav" --output "output.wav"
--input
Especifica la ruta del archivo de audio de entrada.--output
Especifica la ruta del archivo de salida.
- Resultados de la inspección: El nuevo audio generado se guarda como
output.wav
puedes comprobar el efecto con el reproductor.
- Preparación de la entrada de audioAsegúrese de que dispone de un archivo de audio en formato WAV (p. ej.
- advertencia::
- La calidad del audio de entrada afecta a la salida y se recomienda una grabación clara.
- Si necesita personalizar el contenido generado, puede que necesite parámetros adicionales, consulte la documentación del proyecto.
Desarrollo a medida
Dado que MLX-Audio es un proyecto de código abierto, los usuarios pueden modificar el código para conseguir más funciones.
- mover::
- Abra la carpeta del proyecto y utilice un editor de texto (por ejemplo, VS Code) para ver el archivo
mlx_audio
Archivos Python en el directorio. - Modifique el código según sea necesario, por ejemplo, añadiendo nuevos modelos de voz o ajustando la lógica de generación.
- Guarde y ejecute la prueba:
python your_script.py
- Abra la carpeta del proyecto y utilice un editor de texto (por ejemplo, VS Code) para ver el archivo
Detalles del proceso de operación funcional
Generación rápida de voz
- toma: Desea probar rápidamente el efecto de la herramienta.
- flujos de trabajo::
- Abra un terminal y vaya a
mlx-audio
Catálogo. - Introduzca un comando TTS simple:
python -m mlx_audio.tts.generate --text "测试语音生成"
- Espera unos segundos (dependiendo de la longitud del texto y del rendimiento del dispositivo) y el archivo de audio se generará automáticamente.
- Abra un terminal y vaya a
- al final: Genera un archivo de audio con un nombre predeterminado (p. ej.
output.wav
), reprodúcelo directamente.
Tratamiento de textos largos
- toma: Necesidad de convertir un artículo en discurso.
- flujos de trabajo::
- Guarde el texto como un archivo (por ejemplo
text.txt
), el contenido puede ser de varios párrafos. - Utilice el comando para leer el archivo:
python -m mlx_audio.tts.generate --file "text.txt" --output "article.wav"
--file
Especifique la ruta del archivo de texto (asegúrese de que el proyecto soporta este parámetro, si no, utilice el script de Python para leer el archivo y llamarlo).
- Compruebe los datos generados
article.wav
La voz debe ser natural y fluida.
- Guarde el texto como un archivo (por ejemplo
Generación de lotes
- toma: Necesidad de generar voz para varios textos.
- flujos de trabajo::
- Escriba un sencillo script en Python (por ejemplo
batch_generate.py
):from mlx_audio.tts import generate texts = ["文本1", "文本2", "文本3"] for i, text in enumerate(texts): generate(text=text, output=f"output_{i}.wav")
- Ejecuta el script:
python batch_generate.py
- Comprueba si se han generado varios archivos de audio.
- Escriba un sencillo script en Python (por ejemplo
consejo
- optimización del rendimientoCuando se ejecuta en dispositivos de silicio M-Series, asegúrese de que no hay otras tareas de alta carga ocupando recursos para una velocidad óptima.
- Problemas de depuraciónSi se encuentra con un error (por ejemplo, una dependencia que falta), compruebe la salida del terminal y siga las instrucciones para instalar la biblioteca que falta.
- Apoyo comunitarioSi la funcionalidad no está clara, envíe una incidencia a GitHub o consulte el debate existente.
Con estos pasos, los usuarios pueden empezar a utilizar MLX-Audio fácilmente, tanto si están generando voz sencilla como si están desarrollando aplicaciones complejas.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...