Una herramienta que rastrea automáticamente novelas y genera audiolibros de varios caracteres

Últimos recursos sobre IAPublicado hace 12 meses Círculo de intercambio de inteligencia artificial

60.6K 00

Introducción general

Auto-Audio-Book es un proyecto de código abierto alojado en GitHub. Rastrea automáticamente contenido novedoso de sitios web y lo convierte en audiolibros con múltiples voces de personajes. Desarrollador zqq-nuli escrito en Python 3.10+ , combinado con grandes modelos (como el Géminis y CosyVoice2-0.5B) para implementar el procesamiento de texto y la síntesis de voz. El proyecto no sólo permite convertir texto en audio, sino también distinguir los personajes de una novela y asignar distintas voces para generar efectos similares a los de una radionovela. El código está abierto al público y los usuarios pueden descargarlo y modificarlo libremente. A 24 de marzo de 2025, el proyecto aún está en fase de desarrollo, la interfaz gráfica de usuario no está completamente perfeccionada, pero todo el proceso puede completarse a través de la línea de comandos, lo que resulta adecuado para entusiastas de la tecnología y productores de audiolibros.

Lista de funciones

avance de la novelaDescarga automáticamente el contenido de los capítulos de las novelas de los sitios web designados.
Generación de mensajes de diálogo: Utiliza la IA para analizar textos y distinguir entre personajes y diálogos.
Voz en off de varios caracteresAsigna diferentes voces a los personajes de ficción, al protagonista secundario, al narrador y al doblaje aleatorio.
Generación de audio: Convierte texto a formato MP3 para audiolibros con soporte de aceleración multihilo.
Herramientas de gestión: Proporciona una interfaz gráfica de usuario para ayudar en la gestión de nuevos datos y archivos de audio.
código abierto y extensibleLos usuarios pueden modificar el código para añadir nuevas funciones u optimizar los efectos.

Utilizar la ayuda

Auto-Audio-Book requiere una cierta base técnica para su instalación y uso. A continuación encontrará una guía detallada de instalación y funcionamiento que le ayudará a generar un audiolibro desde cero.

Proceso de instalación

Preparación medioambiental
- Instale Python 3.10 o posterior, descargado de https://www.python.org/downloads/.
- montaje ffmpegPara Windows, descárgalo de https://ffmpeg.org/download.html, y para Mac, utiliza la aplicación brew install ffmpegLinux con sudo apt install ffmpeg.
- (Opcional) Instale MongoDB para la gestión GUI de los nuevos datos, descárguelo de https://www.mongodb.com/try/download/community.
- Para comprobar el entorno: en la línea de comandos escriba python --version responder cantando ffmpeg -versionAsegúrese de que la versión se muestra correctamente.
Descargar código
- Clona el proyecto localmente con Git:
```
git clone https://github.com/zqq-nuli/auto-audio-book.git
```
- Vaya al catálogo de proyectos:
```
cd auto-audio-book
```
Creación de un entorno virtual
- utilizar uv Crear un entorno virtual (requiere instalación previa) uvutilice pip install uv):
```
uv venv --python 3.10
```
- Activar el entorno:
  - Ventanas:.\.venv\Scripts\activate
  - Mac/Linux:source .venv/bin/activate
Instalación de dependencias
- Instale las bibliotecas necesarias en el entorno virtual:
```
uv add -r requirements.txt
```
- Si falta requirements.txtlas bibliotecas básicas pueden instalarse manualmente:
```
pip install requests gTTS PyPDF2 pymongo
```
Configuración de la clave API
- haga una copia de .env.example archivo es .env::
```
copy .env.example .env  # Windows
cp .env.example .env    # Mac/Linux
```
- compilador .env introduzca la clave API de Big Model, como la clave de Gemini, que puede solicitar a la plataforma correspondiente.

Pasos de uso

arrastrar una novela
- Seleccione un sitio de ficción (por ejemplo, https://m.ilwxs.com/), el proyecto admite por defecto sitios no protegidos.
- Ejecute el script de rastreo:
```
python app/getBookList.py
```
- A continuación, obtenga la lista de capítulos y guarde el contenido:
```
python app/getZjList.py
python app/saveBooks.py
```
Generar mensajes de diálogo
- Procese los capítulos con IA para diferenciar entre personajes y diálogos:
```
python app/saveBookJson.py
```
- La salida se guarda como un archivo JSON para su posterior doblaje.
Configurar las voces de los personajes
- Ejecute el script para crear la tabla de roles:
```
python app/createUser.py
```
- Asigna manualmente voces para el personaje principal y el narrador (se admiten modelos como CosyVoice2-0.5B). Los demás personajes se pueden asignar aleatoriamente:
  - Voces individuales para personajes con más de 50 líneas.
  - Menos de 50 frases en la voz del narrador.
Generar audio
- Ejecute el script de generación de audio:
```
python app/createAudio.py
```
- Admite aceleración multihilo, por ejemplo, 20 hilos:
```
python app/createAudio.py --threads 20
```
- El resultado es un archivo MP3 que se guarda en el directorio del proyecto.
Gestionar audio (opcional)
- Clasificación de audio con herramientas GUI:
```
python gui/gui.py
```
- O eliminar por lotes las entradas de Himalaya:
```
python gui/gui2.py
```

Nota de manipulación

Optimización de la eficienciaUn ordenador puede procesar 300 capítulos por noche con un solo hilo. Las pruebas demuestran que 5 máquinas con 20 hilos cada una pueden generar 2000 capítulos en 5 horas.
detección de errores: Si te has perdido algún capítulo, comprueba la red o vuelve a ejecutar el script del capítulo correspondiente.
Limitaciones del modeloEl modelo basado en silicio está restringido por IP y requiere el secuestro del servidor para el paralelismo multiordenador.

Ejemplo de proceso

Supongamos que estás convirtiendo una novela:

Rastrea la novela Fulano de Tal de https://m.ilwxs.com/ y guarda capítulos.
Generar mensajes de diálogo, identificando al protagonista A y al narrador.
Configuración A con voz masculina china, narrador con voz femenina, otras aleatorias.
Ejecute la generación multihilo para obtener chapter1.mp3 etc.

Una vez terminado, puede subirse a plataformas como Himalaya, y puede verse un ejemplo del producto acabado en https://www.ximalaya.com/album/88023000.

escenario de aplicación

Producción de audiolibros
Convierta novelas web en audiolibros de varios caracteres y súbalos a plataformas para compartirlos o lucrarse.
experimento de aprendizaje
Los entusiastas de la tecnología lo utilizan para aprender técnicas de rastreo, IA y procesamiento de audio.
Entretenimiento personal
Convierte tus novelas favoritas en audio y escúchalas en cualquier momento y lugar.

CONTROL DE CALIDAD

¿Qué modelos grandes son compatibles?
Actualmente soporta Gemini y CosyVoice2-0.5B, necesita solicitar la Clave API usted mismo.
¿Por qué no se generan algunos capítulos?
Podría ser un corte de red o un fallo de rastreo, comprueba los logs y vuelve a ejecutar el capítulo correspondiente.
¿Cómo puedo mejorar la calidad de audio?
El modelo por defecto tiene un efecto limitado, puede ser sustituido por otro motor TTS, se requiere un cambio de código.