Du papier au podcast : convertir des documents académiques en podcasts de conversation à plusieurs personnes

Dernières ressources sur l'IAPosté il y a 5 mois Cercle de partage de l'IA

10.9K 00

Introduction générale

Paper to Podcast est un outil open source spécialisé dans la transformation de documents de recherche universitaire en podcasts vivants et divertissants. Il facilite la compréhension de contenus académiques complexes en utilisant une technologie d'intelligence artificielle pour transformer un document au format PDF en un dialogue entre trois personnages : l'hôte, l'apprenant et l'expert. Le projet, publié sur GitHub par le développeur Azzedde, s'adresse aux personnes qui aiment écouter des podcasts, en particulier aux utilisateurs qui souhaitent étudier des documents pendant leurs trajets quotidiens ou leurs voyages. Il utilise les API d'OpenAI pour générer des dialogues et de l'audio à faible coût, par exemple environ 0,16 $ pour un podcast de 9 minutes d'un article de 19 pages. Le projet est facile à utiliser et des exemples de podcasts sont fournis à titre de référence.

Liste des fonctions

Conversion de documents de recherche au format PDF en podcasts sous forme de dialogues à trois personnes.
Générer un dialogue interactif entre les trois rôles de facilitateur, d'apprenant et d'expert.
Utilisez l'API OpenAI pour convertir le contenu papier en langage naturel audio.
offrir ./sample_podcasts Exemples de podcasts dans le dossier.
Aide à l'optimisation du code, par exemple en réduisant le temps de génération ou en utilisant des modèles locaux.

Utiliser l'aide

Processus d'installation

Pour utiliser Paper to Podcast, vous devez configurer l'environnement localement. Voici les étapes détaillées :

entrepôt de clones
Exécutez la commande suivante dans le terminal pour télécharger le fichier de projet localement :

git clone https://github.com/Azzedde/paper_to_podcast.git

Aller dans le répertoire du projet
Saisissez la commande pour passer au dossier du projet :

cd paper_to_podcast

Définir la clé API OpenAI

Vous devez créer un compte et obtenir une clé API sur le site officiel d'OpenAI.
Dans le dossier du projet, créez un nouveau fichier .env Documentation.
Ajouter une ligne au fichier :

OPENAI_API_KEY=你的密钥

Enregistrez le fichier et assurez-vous que la clé est correcte.

Installation des dépendances

Assurez-vous que Python est installé sur votre ordinateur (version 3.10 ou supérieure recommandée).
S'exécute dans le terminal :

pip install -r requirements.txt

Cela installera les bibliothèques nécessaires, telles que PyPDF2, pydub, LangChain, etc.

Préparation des documents de thèse

Placez le document de recherche au format PDF dans un dossier de projet, par exemple nommé research_paper.pdf.
Remarque : les fichiers doivent être des PDF lisibles, les images scannées ne sont pas valables.

Exécution de scripts

Saisissez-le dans le terminal :

python paper_to_podcast.py path/to/your/research_paper.pdf

l'interchangeabilité path/to/your/research_paper.pdf pour le chemin d'accès à votre fichier. Le script commencera le traitement.

Fonction Opération Déroulement

Générer des podcasts

fichier d'entréeSpécifiez le chemin d'accès au fichier PDF lors de l'exécution du script et l'outil lira le contenu de l'article.
Générer le dialogue: :
Le système fonctionne de la manière suivante Planning Chain Créez un plan détaillé pour chaque partie du document afin de garantir un contenu précis.
utiliser Discussion ChainCombiné à des modèles génératifs améliorés par la recherche, il transforme le document en un dialogue à trois personnes. Le modérateur présente le sujet, l'apprenant pose des questions et l'expert donne des explications détaillées.
Enhancement Chain Optimisez les scripts pour supprimer le contenu en double et ajustez les transitions pour garantir un dialogue fluide.
sortie audio: :
Une fois le script généré, l'API OpenAI convertit le texte en audio avec des voix réalistes pour chaque personnage.
Le fichier de sortie est enregistré par défaut dans le dossier du projet, et l'échantillon se trouve dans le dossier ./sample_podcasts Au milieu.

Voir l'échantillon

Le projet fournit des exemples de podcasts générés au niveau du chemin d'accès de l'application ./sample_podcasts. Vous pouvez d'abord écouter des extraits pour vous faire une idée du style de dialogue et des effets audio.

Détails techniques

structure du code: :
Planning ChainLes erreurs de génération : Planifiez le contenu de votre document afin de réduire les erreurs de génération.
Discussion ChainLes dialogues : Générer des dialogues qui restent cohérents avec le texte d'origine.
Enhancement ChainLe texte de l'article est en anglais : embellissez le texte pour améliorer l'expérience d'écoute.
Text-to-Speech: à l'audio à l'aide de l'API OpenAI.
les coûts (de fabrication, de production, etc.)La production d'un podcast de 9 minutes d'un article de 19 pages coûte environ 0,16 $, en fonction de la longueur du contenu.

Précautions d'emploi

exigences en matière de réseauLe processus de génération nécessite des appels en réseau à l'API OpenAI.
format de fichier: Seul le format PDF est pris en charge, assurez-vous que le texte est extractible.
détection des erreurs: :
Si l'on vous le demande ModuleNotFoundErrorLa course à pied pip list Vérifiez que les dépendances sont installées.
Si la clé n'est pas valide, vérifiez le .env est correctement configuré.
Recommandations d'optimisationActuellement, la génération prend beaucoup de temps, le développeur prévoit d'améliorer la vitesse, nous recommandons de suivre les mises à jour de GitHub.

projets futurs

Réduire le temps de génération des podcasts et augmenter l'efficacité.
Prise en charge des modèles natifs (par exemple Ollama) et de la synthèse vocale open source, réduisant la dépendance à l'égard d'OpenAI.
Les utilisateurs peuvent soumettre des suggestions d'optimisation ou participer au développement via GitHub.

Grâce à ces étapes, vous pouvez transformer votre document en podcast avec Paper to Podcast et étudier facilement à tout moment et en tout lieu.

scénario d'application

Apprentissage des navetteurs
Écouter des podcasts pour découvrir le contenu du journal sans regarder un écran en conduisant ou en prenant les transports en commun.
échange universitaire
Le chercheur convertit le document en audio et le partage avec l'équipe ou les étudiants pour faciliter la discussion.
amateur
Les personnes qui s'intéressent à des domaines académiques mais n'ont pas le temps de lire des articles utilisent les podcasts pour apprendre rapidement les bases.

QA

Combien coûte la création d'un podcast ?
En utilisant l'API OpenAI, un article de 19 pages génère un podcast de 9 minutes pour environ 0,16 dollar, en fonction de la longueur de l'article.
Prend-il en charge les fichiers autres que les PDF ?
Non pris en charge, n'accepte actuellement que le format PDF, il faut d'abord convertir les autres formats en PDF.
Comment la durée d'un podcast est-elle déterminée ?
En fonction du nombre de pages et de la complexité du document, un document de 19 pages génère environ 9 minutes de son.
Puis-je adapter mon rôle ?
Actuellement fixé à Host, Learner et Expert, vous devez ajuster le code vous-même si vous voulez changer de rôle, voir GitHub pour plus de détails.