De paper a podcast: cómo convertir trabajos académicos en podcasts de conversación entre varias personas
Últimos recursos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial 37.8K 00
Introducción general
Paper to Podcast es una herramienta de código abierto especializada en convertir trabajos de investigación académica en podcasts animados y entretenidos. Facilita la comprensión de contenidos académicos complejos utilizando tecnología de inteligencia artificial para convertir un documento en formato PDF en un diálogo entre tres personajes: el anfitrión, el alumno y el experto. El proyecto, publicado en GitHub por el desarrollador Azzedde, está dirigido a personas a las que les gusta escuchar podcasts, especialmente usuarios que quieren estudiar documentos mientras se desplazan o viajan. Utiliza las API de OpenAI para generar diálogos y audio a bajo coste, por ejemplo unos 0,16 dólares por un podcast de 9 minutos de un documento de 19 páginas. El proyecto es fácil de usar y se ofrecen podcasts de muestra como referencia.

Lista de funciones
- Conversión de trabajos de investigación en formato PDF en podcasts en forma de diálogos a tres.
- Generar un diálogo interactivo entre los tres papeles de facilitador, alumno y experto.
- Utiliza la API OpenAI para convertir contenidos en papel en audio en lenguaje natural.
- oferta
./sample_podcastsPodcasts de muestra en la carpeta. - Soporte para la optimización del código, por ejemplo, acortando el tiempo de generación o utilizando modelos locales.
Utilizar la ayuda
Proceso de instalación
Para utilizar Paper to Podcast, es necesario configurar el entorno localmente. A continuación se detallan los pasos a seguir:
- almacén de clones
Ejecute el siguiente comando en el terminal para descargar el archivo del proyecto localmente:
git clone https://github.com/Azzedde/paper_to_podcast.git
- Vaya al directorio del proyecto
Introduzca el comando para cambiar a la carpeta del proyecto:
cd paper_to_podcast
- Configuración de la clave de la API de OpenAI
- Tendrás que registrarte para obtener una cuenta y una clave API en el sitio web oficial de OpenAI.
- En la carpeta del proyecto cree un nuevo
.envDocumentación. - Añade una línea al archivo:
OPENAI_API_KEY=你的密钥
- Guarde el archivo y asegúrese de que la clave es correcta.
- Instalación de dependencias
- Asegúrese de que Python está instalado en su ordenador (se recomienda la versión 3.10 o superior).
- Se ejecuta en el terminal:
pip install -r requirements.txt
- Esto instalará las librerías necesarias, como PyPDF2, pydub, LangChain, etc.
- Preparación de documentos de tesis
- Coloque el trabajo de investigación en formato PDF en una carpeta del proyecto, por ejemplo, denominada
research_paper.pdf. - Nota: Los archivos deben ser PDF de texto legible, las imágenes escaneadas no son válidas.
- Ejecución de scripts
- Introdúcelo en el terminal:
python paper_to_podcast.py path/to/your/research_paper.pdf
- intercambiabilidad
path/to/your/research_paper.pdfpara la ruta de su archivo. El script comenzará a procesar.
Función Flujo de operaciones
Generar podcasts
- archivo de entrada: Especifique la ruta al archivo PDF al ejecutar el script y la herramienta leerá el contenido del documento.
- Generar diálogo::
- El sistema funciona mediante
Planning ChainElabore un plan detallado para cada parte del documento a fin de garantizar la exactitud del contenido. - utilizar
Discussion Chaincombinada con modelos generativos de recuperación mejorada, convierte la ponencia en un diálogo entre tres personas. El moderador introduce el tema, el alumno hace preguntas y el experto explica en profundidad. Enhancement ChainOptimice los guiones para eliminar contenidos duplicados y ajuste las transiciones para garantizar un diálogo fluido.- audio de salida::
- Una vez generado el guión, la API OpenAI convierte el texto en audio con voces realistas para cada personaje.
- El archivo de salida se guarda por defecto en la carpeta del proyecto, y la muestra está en la carpeta
./sample_podcastsMedio.
Ver muestra
- El proyecto proporciona podcasts de muestra generados en la ruta del
./sample_podcasts. Puede escuchar muestras primero para hacerse una idea del estilo de los diálogos y los efectos de audio.
Ficha técnica
- estructura del código::
Planning ChainPlanifique el contenido de su documento para reducir los errores de generación.Discussion ChainGeneración de diálogos coherentes con el texto original.Enhancement Chain: embellecen el guión para mejorar la experiencia auditiva.Text-to-Speecha audio utilizando la API OpenAI.- costes (fabricación, producción, etc.): Generar un podcast de 9 minutos de un documento de 19 páginas cuesta unos 0,16 dólares, dependiendo de la longitud del contenido.
Precauciones de uso
- requisitos de la red: El proceso de generación requiere llamadas en red a la API OpenAI.
- formato de archivo: Sólo se admite PDF, asegúrese de que el texto es extraíble.
- detección de errores::
- Si se le pide
ModuleNotFoundErrorEjecutarpip listCompruebe que las dependencias están instaladas. - Si la clave no es válida, compruebe el
.envestá correctamente configurado. - Recomendaciones de optimización: Actualmente tarda mucho en generarse, el desarrollador planea mejorar la velocidad, recomendamos seguir las actualizaciones de GitHub.
planes de futuro
- Reduzca el tiempo de generación de podcasts y aumente la eficacia.
- Compatibilidad con modelos nativos (por ejemplo, Ollama) y síntesis de voz de código abierto, lo que reduce la dependencia de OpenAI.
- Los usuarios pueden enviar sugerencias de optimización o participar en el desarrollo a través de GitHub.
Con estos pasos, puedes convertir tu trabajo en un podcast con Paper to Podcast y estudiar fácilmente en cualquier momento y lugar.
escenario de aplicación
- Aprendizaje a distancia
Escuche podcasts para conocer el contenido del periódico sin mirar la pantalla mientras conduce o viaja en transporte público. - intercambio académico
El investigador convierte el documento en audio y lo comparte con el equipo o los alumnos para facilitar el debate. - aficionado
Las personas que sienten curiosidad por los campos académicos pero no tienen tiempo de leer artículos utilizan los podcasts para aprender rápidamente los conceptos básicos.
CONTROL DE CALIDAD
- ¿Cuánto cuesta generar un podcast?
Utilizando la API de OpenAI, un artículo de 19 páginas genera un podcast de 9 minutos por unos 0,16 dólares, dependiendo de la longitud del artículo. - ¿Admite archivos que no sean PDF?
No compatible, actualmente sólo acepta el formato PDF, es necesario convertir primero otros formatos a PDF. - ¿Cómo se determina la duración del podcast?
Según el número de páginas y la complejidad del trabajo, un trabajo de 19 páginas genera aproximadamente 9 minutos de audio. - ¿Puedo ajustar mi papel?
Actualmente está fijado para Anfitrión, Aprendiz y Experto, necesitas ajustar el código tú mismo si quieres cambiar los roles, mira GitHub para más detalles.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




