De paper a podcast: cómo convertir trabajos académicos en podcasts de conversación entre varias personas

Últimos recursos sobre IAPublicado hace 11 meses Círculo de intercambio de inteligencia artificial

43.9K 00

Introducción general

Paper to Podcast es una herramienta de código abierto especializada en convertir trabajos de investigación académica en podcasts animados y entretenidos. Facilita la comprensión de contenidos académicos complejos utilizando tecnología de inteligencia artificial para convertir un documento en formato PDF en un diálogo entre tres personajes: el anfitrión, el alumno y el experto. El proyecto, publicado en GitHub por el desarrollador Azzedde, está dirigido a personas a las que les gusta escuchar podcasts, especialmente usuarios que quieren estudiar documentos mientras se desplazan o viajan. Utiliza las API de OpenAI para generar diálogos y audio a bajo coste, por ejemplo unos 0,16 dólares por un podcast de 9 minutos de un documento de 19 páginas. El proyecto es fácil de usar y se ofrecen podcasts de muestra como referencia.

Lista de funciones

Conversión de trabajos de investigación en formato PDF en podcasts en forma de diálogos a tres.
Generar un diálogo interactivo entre los tres papeles de facilitador, alumno y experto.
Utiliza la API OpenAI para convertir contenidos en papel en audio en lenguaje natural.
oferta ./sample_podcasts Podcasts de muestra en la carpeta.
Soporte para la optimización del código, por ejemplo, acortando el tiempo de generación o utilizando modelos locales.

Utilizar la ayuda

Proceso de instalación

Para utilizar Paper to Podcast, es necesario configurar el entorno localmente. A continuación se detallan los pasos a seguir:

almacén de clones
Ejecute el siguiente comando en el terminal para descargar el archivo del proyecto localmente:

git clone https://github.com/Azzedde/paper_to_podcast.git

Vaya al directorio del proyecto
Introduzca el comando para cambiar a la carpeta del proyecto:

cd paper_to_podcast

Configuración de la clave de la API de OpenAI

Tendrás que registrarte para obtener una cuenta y una clave API en el sitio web oficial de OpenAI.
En la carpeta del proyecto cree un nuevo .env Documentación.
Añade una línea al archivo:

OPENAI_API_KEY=你的密钥

Guarde el archivo y asegúrese de que la clave es correcta.

Instalación de dependencias

Asegúrese de que Python está instalado en su ordenador (se recomienda la versión 3.10 o superior).
Se ejecuta en el terminal:

pip install -r requirements.txt

Esto instalará las librerías necesarias, como PyPDF2, pydub, LangChain, etc.

Preparación de documentos de tesis

Coloque el trabajo de investigación en formato PDF en una carpeta del proyecto, por ejemplo, denominada research_paper.pdf.
Nota: Los archivos deben ser PDF de texto legible, las imágenes escaneadas no son válidas.

Ejecución de scripts

Introdúcelo en el terminal:

python paper_to_podcast.py path/to/your/research_paper.pdf

intercambiabilidad path/to/your/research_paper.pdf para la ruta de su archivo. El script comenzará a procesar.

Función Flujo de operaciones

Generar podcasts

archivo de entrada: Especifique la ruta al archivo PDF al ejecutar el script y la herramienta leerá el contenido del documento.
Generar diálogo::
El sistema funciona mediante Planning Chain Elabore un plan detallado para cada parte del documento a fin de garantizar la exactitud del contenido.
utilizar Discussion Chaincombinada con modelos generativos de recuperación mejorada, convierte la ponencia en un diálogo entre tres personas. El moderador introduce el tema, el alumno hace preguntas y el experto explica en profundidad.
Enhancement Chain Optimice los guiones para eliminar contenidos duplicados y ajuste las transiciones para garantizar un diálogo fluido.
audio de salida::
Una vez generado el guión, la API OpenAI convierte el texto en audio con voces realistas para cada personaje.
El archivo de salida se guarda por defecto en la carpeta del proyecto, y la muestra está en la carpeta ./sample_podcasts Medio.

Ver muestra

El proyecto proporciona podcasts de muestra generados en la ruta del ./sample_podcasts. Puede escuchar muestras primero para hacerse una idea del estilo de los diálogos y los efectos de audio.

Ficha técnica

estructura del código::
Planning ChainPlanifique el contenido de su documento para reducir los errores de generación.
Discussion ChainGeneración de diálogos coherentes con el texto original.
Enhancement Chain: embellecen el guión para mejorar la experiencia auditiva.
Text-to-Speecha audio utilizando la API OpenAI.
costes (fabricación, producción, etc.): Generar un podcast de 9 minutos de un documento de 19 páginas cuesta unos 0,16 dólares, dependiendo de la longitud del contenido.

Precauciones de uso

requisitos de la red: El proceso de generación requiere llamadas en red a la API OpenAI.
formato de archivo: Sólo se admite PDF, asegúrese de que el texto es extraíble.
detección de errores::
Si se le pide ModuleNotFoundErrorEjecutar pip list Compruebe que las dependencias están instaladas.
Si la clave no es válida, compruebe el .env está correctamente configurado.
Recomendaciones de optimización: Actualmente tarda mucho en generarse, el desarrollador planea mejorar la velocidad, recomendamos seguir las actualizaciones de GitHub.

planes de futuro

Reduzca el tiempo de generación de podcasts y aumente la eficacia.
Compatibilidad con modelos nativos (por ejemplo, Ollama) y síntesis de voz de código abierto, lo que reduce la dependencia de OpenAI.
Los usuarios pueden enviar sugerencias de optimización o participar en el desarrollo a través de GitHub.

Con estos pasos, puedes convertir tu trabajo en un podcast con Paper to Podcast y estudiar fácilmente en cualquier momento y lugar.

escenario de aplicación

Aprendizaje a distancia
Escuche podcasts para conocer el contenido del periódico sin mirar la pantalla mientras conduce o viaja en transporte público.
intercambio académico
El investigador convierte el documento en audio y lo comparte con el equipo o los alumnos para facilitar el debate.
aficionado
Las personas que sienten curiosidad por los campos académicos pero no tienen tiempo de leer artículos utilizan los podcasts para aprender rápidamente los conceptos básicos.

CONTROL DE CALIDAD

¿Cuánto cuesta generar un podcast?
Utilizando la API de OpenAI, un artículo de 19 páginas genera un podcast de 9 minutos por unos 0,16 dólares, dependiendo de la longitud del artículo.
¿Admite archivos que no sean PDF?
No compatible, actualmente sólo acepta el formato PDF, es necesario convertir primero otros formatos a PDF.
¿Cómo se determina la duración del podcast?
Según el número de páginas y la complejidad del trabajo, un trabajo de 19 páginas genera aproximadamente 9 minutos de audio.
¿Puedo ajustar mi papel?
Actualmente está fijado para Anfitrión, Aprendiz y Experto, necesitas ajustar el código tú mismo si quieres cambiar los roles, mira GitHub para más detalles.