Abogen: una herramienta para convertir múltiples formatos de texto en audiolibros

Últimos recursos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial

69.2K 00

Introducción general

Abogen es una herramienta de código abierto diseñada para convertir rápidamente archivos ePub, PDF o de texto plano en audio de alta calidad. Utiliza el modelo Kokoro-82M para generar un habla natural y fluida, y admite la generación simultánea de subtítulos, lo que la hace idónea para audiolibros, doblaje de vídeos o ayudas al aprendizaje. Los usuarios pueden seleccionar varios idiomas y voces masculinas y femeninas, ajustar la granularidad de los subtítulos e incluso mezclar diferentes modelos de voz para crear efectos de sonido únicos.Abogen admite formatos de audio como WAV, FLAC, MP3 y M4B, y es fácil de usar y compatible con Windows, Linux y macOS.

Lista de funciones

Admite la entrada de archivos ePub, PDF y TXT y la extracción automática de texto.
Generación de habla natural de alta calidad mediante el modelo Kokoro-82M.
Hay disponibles varios idiomas y opciones de voz masculina y femenina, como inglés americano, inglés británico, etc.
Admite la generación de subtítulos con segmentación por frases, palabras o granularidad personalizada.
Permite mezclar distintos modelos de habla para crear voces personalizadas.
Los formatos de audio de salida son WAV, FLAC, MP3 y M4B (admite capítulos).
Ofrece un editor de texto integrado para introducir o modificar texto directamente.
Admite la implantación de Docker para simplificar la instalación y el funcionamiento.
Elija dónde guardar el archivo de salida, como el escritorio o una carpeta personalizada.

Utilizar la ayuda

Proceso de instalación

La instalación de Abogen requiere una serie de dependencias, incluido el entorno Python y espeak-ng. A continuación se detallan los pasos a seguir:

1. Instalar espeak-ng

Visite la página de la última versión de espeak-ng para descargar el .msi (Windows) o instalar a través del gestor de paquetes (Linux/macOS).
Usuarios de Windows: Ejecute el programa descargado .msi siga las instrucciones para completar la instalación.
Usuarios de Linux: ejecución de comandos sudo apt-get install espeak-ng(Ubuntu/Debian) o sudo yum install espeak-ng(CentOS).
Usuarios de macOS: ejecutar con Homebrew brew install espeak-ng.

2. Instalación de Python y PyTorch

Asegúrese de que Python 3.8 o posterior está instalado en su sistema.

Instala PyTorch (se recomiendan las GPUs NVIDIA para la aceleración GPU):

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

Si no tienes una GPU NVIDIA, ejecuta el siguiente comando para instalar la versión para CPU:
```
pip install torch torchvision torchaudio
```

3. Instalación de Abogen

Ejecute el siguiente comando para instalar Abogen:
```
pip install abogen
```
Una vez finalizada la instalación, ejecute abogen inicia la interfaz gráfica de usuario (GUI).

4. Uso de Docker (opcional)

Si desea ejecutar Abogen a través de Docker, puede simplificar la gestión de dependencias:

Asegúrese de que Docker está instalado.

Clonación del repositorio Abogen:

git clone https://github.com/denizsafak/abogen.git
cd abogen

Cree la imagen Docker:

docker build --progress plain -t abogen .

Ejecute el contenedor Docker:

Ventanas:

docker run --name abogen -v %CD%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen

Linux:

docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen

macOS:

docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen

Visite Abogen:
- Acceso a través del navegador http://localhost:5800.
- o conéctese mediante un cliente VNC localhost:5900.

Funciones principales

1. Convertir texto en audio

Tras iniciar Abogen, se abre la interfaz gráfica.
Haga clic en el botón "Seleccionar archivo" para cargar un archivo ePub, PDF o TXT, o utilice el editor de texto integrado para introducir texto.
Seleccione el idioma y la voz (por ejemplo a_m Indica una voz masculina en inglés americano.b_f (Indica una voz femenina en inglés británico).
Configure las opciones de subtítulos: seleccione "Frase", "Frase + coma" o dividir por número de palabras (por ejemplo, 1 palabra, 2 palabras).
Haz clic en el botón Generar y espera a que finalice el procesamiento. El tiempo de procesamiento depende del tamaño del archivo y del rendimiento del hardware (por ejemplo, 3000 caracteres de texto tardan unos 11 segundos en la RTX 2060).

2. Discurso a medida

En el Mezclador de voces, ajusta las proporciones de los distintos modelos de voz para crear efectos de sonido únicos.
Guarda la configuración de la mezcla como "perfil de voz" para reutilizarla fácilmente.
Prueba el efecto de voz: haz clic en el botón "Vista previa" para escuchar el clip de sonido generado.

3. Ajustes de salida

Selecciona el formato de audio: WAV (sin pérdida), FLAC (comprimido sin pérdida), MP3 (universal) o M4B (formato de audiolibro con soporte para capítulos).
Configuración de la ubicación de guardado: Selecciona "Guardar en el escritorio", "Guardar junto al archivo de entrada" o carpeta personalizada.
Si necesita subtítulos, marque "Generar subtítulos" y seleccione el formato de salida (por ejemplo, SRT).

4. Modo de línea de comandos

Si hay algún problema con la interfaz gráfica, puede ejecutarse desde la línea de comandos:
```
abogen --cli
```
El modo de línea de comandos muestra mensajes de error detallados para facilitar la resolución de problemas.

advertencia

Asegúrese de que el archivo de entrada está formateado correctamente, los archivos PDF pueden tener una extracción de texto incompleta debido a su compleja disposición.
Se recomienda la aceleración por GPU para un procesamiento más rápido, el procesamiento por CPU puede ser más lento.
Si tiene problemas, consulte la página de problemas en GitHub o envíe un nuevo problema para obtener ayuda.

escenario de aplicación

Producción de audiolibros
Los usuarios pueden convertir novelas, libros de texto o documentos en audiolibros para escucharlos fácilmente mientras se desplazan o hacen ejercicio.La salida M4B de Abogen admite la división en capítulos para los contenidos más largos.
doblaje de vídeo
Los creadores de contenidos pueden generar locuciones naturales para vídeos de YouTube, TikTok o Instagram con subtítulos sincronizados para mejorar la profesionalidad de sus vídeos.
Ayuda al aprendizaje
Los estudiantes pueden convertir libros de texto o folletos en PDF a audio y combinarlos con subtítulos para facilitar la escucha y el aprendizaje, lo que resulta adecuado para estudiantes de idiomas o discapacitados visuales.
Producción de podcasts
Los productores de podcasts pueden convertir guiones en audio, generar rápidamente clips de audición y ajustar el estilo de voz al tema del programa.

CONTROL DE CALIDAD

¿Qué formatos de archivo admite Abogen?
Abogen admite archivos ePub, PDF y TXT como entrada, y da salida a formatos de audio como WAV, FLAC, MP3 y M4B, con subtítulos en formato SRT.
¿Cómo mejorar la precisión de la extracción de texto?
Para los archivos PDF, se recomienda utilizar un documento con un diseño sencillo. Si la extracción no es precisa, puede convertir el PDF en un archivo TXT antes de introducirlo.
¿Necesito una GPU para ejecutar Abogen?
No es necesario, pero el uso de una GPU NVIDIA puede acelerar considerablemente el procesamiento. una CPU también funcionará, pero a menor velocidad.
¿Cómo puedo contribuir con código o informar de un problema?
Visita el repositorio de GitHub, envía una Pull Request para contribuir con código o informa de un problema en la página de Problemas con información detallada sobre errores.