De paper a podcast: cómo convertir trabajos académicos en podcasts de conversación entre varias personas
Últimos recursos sobre IAPublicado hace 4 meses Círculo de intercambio de inteligencia artificial 2K 00
Introducción general
Paper to Podcast es una herramienta de código abierto especializada en convertir trabajos de investigación académica en podcasts animados y entretenidos. Facilita la comprensión de contenidos académicos complejos utilizando tecnología de inteligencia artificial para convertir un documento en formato PDF en un diálogo entre tres personajes: el anfitrión, el alumno y el experto. El proyecto, publicado en GitHub por el desarrollador Azzedde, está dirigido a personas a las que les gusta escuchar podcasts, especialmente usuarios que quieren estudiar documentos mientras se desplazan o viajan. Utiliza las API de OpenAI para generar diálogos y audio a bajo coste, por ejemplo unos 0,16 dólares por un podcast de 9 minutos de un documento de 19 páginas. El proyecto es fácil de usar y se ofrecen podcasts de muestra como referencia.

Lista de funciones
- Conversión de trabajos de investigación en formato PDF en podcasts en forma de diálogos a tres.
- Generar un diálogo interactivo entre los tres papeles de facilitador, alumno y experto.
- Utiliza la API OpenAI para convertir contenidos en papel en audio en lenguaje natural.
- oferta
./sample_podcasts
Podcasts de muestra en la carpeta. - Soporte para la optimización del código, por ejemplo, acortando el tiempo de generación o utilizando modelos locales.
Utilizar la ayuda
Proceso de instalación
Para utilizar Paper to Podcast, es necesario configurar el entorno localmente. A continuación se detallan los pasos a seguir:
- almacén de clones
Ejecute el siguiente comando en el terminal para descargar el archivo del proyecto localmente:
git clone https://github.com/Azzedde/paper_to_podcast.git
- Vaya al directorio del proyecto
Introduzca el comando para cambiar a la carpeta del proyecto:
cd paper_to_podcast
- Configuración de la clave de la API de OpenAI
- Tendrás que registrarte para obtener una cuenta y una clave API en el sitio web oficial de OpenAI.
- En la carpeta del proyecto cree un nuevo
.env
Documentación. - Añade una línea al archivo:
OPENAI_API_KEY=你的密钥
- Guarde el archivo y asegúrese de que la clave es correcta.
- Instalación de dependencias
- Asegúrese de que Python está instalado en su ordenador (se recomienda la versión 3.10 o superior).
- Se ejecuta en el terminal:
pip install -r requirements.txt
- Esto instalará las librerías necesarias, como PyPDF2, pydub, LangChain, etc.
- Preparación de documentos de tesis
- Coloque el trabajo de investigación en formato PDF en una carpeta del proyecto, por ejemplo, denominada
research_paper.pdf
. - Nota: Los archivos deben ser PDF de texto legible, las imágenes escaneadas no son válidas.
- Ejecución de scripts
- Introdúcelo en el terminal:
python paper_to_podcast.py path/to/your/research_paper.pdf
- intercambiabilidad
path/to/your/research_paper.pdf
para la ruta de su archivo. El script comenzará a procesar.
Función Flujo de operaciones
Generar podcasts
- archivo de entrada: Especifique la ruta al archivo PDF al ejecutar el script y la herramienta leerá el contenido del documento.
- Generar diálogo::
- El sistema funciona mediante
Planning Chain
Elabore un plan detallado para cada parte del documento a fin de garantizar la exactitud del contenido. - utilizar
Discussion Chain
combinada con modelos generativos de recuperación mejorada, convierte la ponencia en un diálogo entre tres personas. El moderador introduce el tema, el alumno hace preguntas y el experto explica en profundidad. Enhancement Chain
Optimice los guiones para eliminar contenidos duplicados y ajuste las transiciones para garantizar un diálogo fluido.- audio de salida::
- Una vez generado el guión, la API OpenAI convierte el texto en audio con voces realistas para cada personaje.
- El archivo de salida se guarda por defecto en la carpeta del proyecto, y la muestra está en la carpeta
./sample_podcasts
Medio.
Ver muestra
- El proyecto proporciona podcasts de muestra generados en la ruta del
./sample_podcasts
. Puede escuchar muestras primero para hacerse una idea del estilo de los diálogos y los efectos de audio.
Ficha técnica
- estructura del código::
Planning Chain
Planifique el contenido de su documento para reducir los errores de generación.Discussion Chain
Generación de diálogos coherentes con el texto original.Enhancement Chain
: embellecen el guión para mejorar la experiencia auditiva.Text-to-Speech
a audio utilizando la API OpenAI.- costes (fabricación, producción, etc.): Generar un podcast de 9 minutos de un documento de 19 páginas cuesta unos 0,16 dólares, dependiendo de la longitud del contenido.
Precauciones de uso
- requisitos de la red: El proceso de generación requiere llamadas en red a la API OpenAI.
- formato de archivo: Sólo se admite PDF, asegúrese de que el texto es extraíble.
- detección de errores::
- Si se le pide
ModuleNotFoundError
Ejecutarpip list
Compruebe que las dependencias están instaladas. - Si la clave no es válida, compruebe el
.env
está correctamente configurado. - Recomendaciones de optimización: Actualmente tarda mucho en generarse, el desarrollador planea mejorar la velocidad, recomendamos seguir las actualizaciones de GitHub.
planes de futuro
- Reduzca el tiempo de generación de podcasts y aumente la eficacia.
- Compatibilidad con modelos nativos (por ejemplo, Ollama) y síntesis de voz de código abierto, lo que reduce la dependencia de OpenAI.
- Los usuarios pueden enviar sugerencias de optimización o participar en el desarrollo a través de GitHub.
Con estos pasos, puedes convertir tu trabajo en un podcast con Paper to Podcast y estudiar fácilmente en cualquier momento y lugar.
escenario de aplicación
- Aprendizaje a distancia
Escuche podcasts para conocer el contenido del periódico sin mirar la pantalla mientras conduce o viaja en transporte público. - intercambio académico
El investigador convierte el documento en audio y lo comparte con el equipo o los alumnos para facilitar el debate. - aficionado
Las personas que sienten curiosidad por los campos académicos pero no tienen tiempo de leer artículos utilizan los podcasts para aprender rápidamente los conceptos básicos.
CONTROL DE CALIDAD
- ¿Cuánto cuesta generar un podcast?
Utilizando la API de OpenAI, un artículo de 19 páginas genera un podcast de 9 minutos por unos 0,16 dólares, dependiendo de la longitud del artículo. - ¿Admite archivos que no sean PDF?
No compatible, actualmente sólo acepta el formato PDF, es necesario convertir primero otros formatos a PDF. - ¿Cómo se determina la duración del podcast?
Según el número de páginas y la complejidad del trabajo, un trabajo de 19 páginas genera aproximadamente 9 minutos de audio. - ¿Puedo ajustar mi papel?
Actualmente está fijado para Anfitrión, Aprendiz y Experto, necesitas ajustar el código tú mismo si quieres cambiar los roles, mira GitHub para más detalles.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...