Una herramienta que rastrea automáticamente novelas y genera audiolibros de varios caracteres
Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial 2K 00
Introducción general
Auto-Audio-Book es un proyecto de código abierto alojado en GitHub. Rastrea automáticamente contenido novedoso de sitios web y lo convierte en audiolibros con múltiples voces de personajes. Desarrollador zqq-nuli escrito en Python 3.10+ , combinado con grandes modelos (como el Géminis y CosyVoice2-0.5B) para implementar el procesamiento de texto y la síntesis de voz. El proyecto no sólo permite convertir texto en audio, sino también distinguir los personajes de una novela y asignar distintas voces para generar efectos similares a los de una radionovela. El código está abierto al público y los usuarios pueden descargarlo y modificarlo libremente. A 24 de marzo de 2025, el proyecto aún está en fase de desarrollo, la interfaz gráfica de usuario no está completamente perfeccionada, pero todo el proceso puede completarse a través de la línea de comandos, lo que resulta adecuado para entusiastas de la tecnología y productores de audiolibros.
Lista de funciones
- avance de la novelaDescarga automáticamente el contenido de los capítulos de las novelas de los sitios web designados.
- Generación de mensajes de diálogo: Utiliza la IA para analizar textos y distinguir entre personajes y diálogos.
- Voz en off de varios caracteresAsigna diferentes voces a los personajes de ficción, al protagonista secundario, al narrador y al doblaje aleatorio.
- Generación de audio: Convierte texto a formato MP3 para audiolibros con soporte de aceleración multihilo.
- Herramientas de gestión: Proporciona una interfaz gráfica de usuario para ayudar en la gestión de nuevos datos y archivos de audio.
- código abierto y extensibleLos usuarios pueden modificar el código para añadir nuevas funciones u optimizar los efectos.
Utilizar la ayuda
Auto-Audio-Book requiere una cierta base técnica para su instalación y uso. A continuación encontrará una guía detallada de instalación y funcionamiento que le ayudará a generar un audiolibro desde cero.
Proceso de instalación
- Preparación medioambiental
- Instale Python 3.10 o posterior, descargado de https://www.python.org/downloads/.
- montaje
ffmpeg
Para Windows, descárgalo de https://ffmpeg.org/download.html, y para Mac, utiliza la aplicaciónbrew install ffmpeg
Linux consudo apt install ffmpeg
. - (Opcional) Instale MongoDB para la gestión GUI de los nuevos datos, descárguelo de https://www.mongodb.com/try/download/community.
- Para comprobar el entorno: en la línea de comandos escriba
python --version
responder cantandoffmpeg -version
Asegúrese de que la versión se muestra correctamente.
- Descargar código
- Clona el proyecto localmente con Git:
git clone https://github.com/zqq-nuli/auto-audio-book.git
- Vaya al catálogo de proyectos:
cd auto-audio-book
- Clona el proyecto localmente con Git:
- Creación de un entorno virtual
- utilizar
uv
Crear un entorno virtual (requiere instalación previa)uv
utilicepip install uv
):uv venv --python 3.10
- Activar el entorno:
- Ventanas:
.\.venv\Scripts\activate
- Mac/Linux:
source .venv/bin/activate
- Ventanas:
- utilizar
- Instalación de dependencias
- Instale las bibliotecas necesarias en el entorno virtual:
uv add -r requirements.txt
- Si falta
requirements.txt
las bibliotecas básicas pueden instalarse manualmente:pip install requests gTTS PyPDF2 pymongo
- Instale las bibliotecas necesarias en el entorno virtual:
- Configuración de la clave API
- haga una copia de
.env.example
archivo es.env
::copy .env.example .env # Windows cp .env.example .env # Mac/Linux
- compilador
.env
introduzca la clave API de Big Model, como la clave de Gemini, que puede solicitar a la plataforma correspondiente.
- haga una copia de
Pasos de uso
- arrastrar una novela
- Seleccione un sitio de ficción (por ejemplo, https://m.ilwxs.com/), el proyecto admite por defecto sitios no protegidos.
- Ejecute el script de rastreo:
python app/getBookList.py
- A continuación, obtenga la lista de capítulos y guarde el contenido:
python app/getZjList.py python app/saveBooks.py
- Generar mensajes de diálogo
- Procese los capítulos con IA para diferenciar entre personajes y diálogos:
python app/saveBookJson.py
- La salida se guarda como un archivo JSON para su posterior doblaje.
- Procese los capítulos con IA para diferenciar entre personajes y diálogos:
- Configurar las voces de los personajes
- Ejecute el script para crear la tabla de roles:
python app/createUser.py
- Asigna manualmente voces para el personaje principal y el narrador (se admiten modelos como CosyVoice2-0.5B). Los demás personajes se pueden asignar aleatoriamente:
- Voces individuales para personajes con más de 50 líneas.
- Menos de 50 frases en la voz del narrador.
- Ejecute el script para crear la tabla de roles:
- Generar audio
- Ejecute el script de generación de audio:
python app/createAudio.py
- Admite aceleración multihilo, por ejemplo, 20 hilos:
python app/createAudio.py --threads 20
- El resultado es un archivo MP3 que se guarda en el directorio del proyecto.
- Ejecute el script de generación de audio:
- Gestionar audio (opcional)
- Clasificación de audio con herramientas GUI:
python gui/gui.py
- O eliminar por lotes las entradas de Himalaya:
python gui/gui2.py
- Clasificación de audio con herramientas GUI:
Nota de manipulación
- Optimización de la eficienciaUn ordenador puede procesar 300 capítulos por noche con un solo hilo. Las pruebas demuestran que 5 máquinas con 20 hilos cada una pueden generar 2000 capítulos en 5 horas.
- detección de errores: Si te has perdido algún capítulo, comprueba la red o vuelve a ejecutar el script del capítulo correspondiente.
- Limitaciones del modeloEl modelo basado en silicio está restringido por IP y requiere el secuestro del servidor para el paralelismo multiordenador.
Ejemplo de proceso
Supongamos que estás convirtiendo una novela:
- Rastrea la novela Fulano de Tal de https://m.ilwxs.com/ y guarda capítulos.
- Generar mensajes de diálogo, identificando al protagonista A y al narrador.
- Configuración A con voz masculina china, narrador con voz femenina, otras aleatorias.
- Ejecute la generación multihilo para obtener
chapter1.mp3
etc.
Una vez terminado, puede subirse a plataformas como Himalaya, y puede verse un ejemplo del producto acabado en https://www.ximalaya.com/album/88023000.
escenario de aplicación
- Producción de audiolibros
Convierta novelas web en audiolibros de varios caracteres y súbalos a plataformas para compartirlos o lucrarse. - experimento de aprendizaje
Los entusiastas de la tecnología lo utilizan para aprender técnicas de rastreo, IA y procesamiento de audio. - Entretenimiento personal
Convierte tus novelas favoritas en audio y escúchalas en cualquier momento y lugar.
CONTROL DE CALIDAD
- ¿Qué modelos grandes son compatibles?
Actualmente soporta Gemini y CosyVoice2-0.5B, necesita solicitar la Clave API usted mismo. - ¿Por qué no se generan algunos capítulos?
Podría ser un corte de red o un fallo de rastreo, comprueba los logs y vuelve a ejecutar el capítulo correspondiente. - ¿Cómo puedo mejorar la calidad de audio?
El modelo por defecto tiene un efecto limitado, puede ser sustituido por otro motor TTS, se requiere un cambio de código.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...