Du papier au podcast : convertir des documents académiques en podcasts de conversation à plusieurs personnes

Introduction générale

Paper to Podcast est un outil open source spécialisé dans la transformation de documents de recherche universitaire en podcasts vivants et divertissants. Il facilite la compréhension de contenus académiques complexes en utilisant une technologie d'intelligence artificielle pour transformer un document au format PDF en un dialogue entre trois personnages : l'hôte, l'apprenant et l'expert. Le projet, publié sur GitHub par le développeur Azzedde, s'adresse aux personnes qui aiment écouter des podcasts, en particulier aux utilisateurs qui souhaitent étudier des documents pendant leurs trajets quotidiens ou leurs voyages. Il utilise les API d'OpenAI pour générer des dialogues et de l'audio à faible coût, par exemple environ 0,16 $ pour un podcast de 9 minutes d'un article de 19 pages. Le projet est facile à utiliser et des exemples de podcasts sont fournis à titre de référence.

Paper to Podcast:把学术论文转换为多人对话播客

 

Liste des fonctions

  • Conversion de documents de recherche au format PDF en podcasts sous forme de dialogues à trois personnes.
  • Générer un dialogue interactif entre les trois rôles de facilitateur, d'apprenant et d'expert.
  • Utilisez l'API OpenAI pour convertir le contenu papier en langage naturel audio.
  • offrir ./sample_podcasts Exemples de podcasts dans le dossier.
  • Aide à l'optimisation du code, par exemple en réduisant le temps de génération ou en utilisant des modèles locaux.

 

Utiliser l'aide

Processus d'installation

Pour utiliser Paper to Podcast, vous devez configurer l'environnement localement. Voici les étapes détaillées :

  1. entrepôt de clones
    Exécutez la commande suivante dans le terminal pour télécharger le fichier de projet localement :
git clone https://github.com/Azzedde/paper_to_podcast.git
  1. Aller dans le répertoire du projet
    Saisissez la commande pour passer au dossier du projet :
cd paper_to_podcast
  1. Définir la clé API OpenAI
  • Vous devez créer un compte et obtenir une clé API sur le site officiel d'OpenAI.
  • Dans le dossier du projet, créez un nouveau fichier .env Documentation.
  • Ajouter une ligne au fichier :
OPENAI_API_KEY=你的密钥
  • Enregistrez le fichier et assurez-vous que la clé est correcte.
  1. Installation des dépendances
  • Assurez-vous que Python est installé sur votre ordinateur (version 3.10 ou supérieure recommandée).
  • S'exécute dans le terminal :
pip install -r requirements.txt
  • Cela installera les bibliothèques nécessaires, telles que PyPDF2, pydub, LangChain, etc.
  1. Préparation des documents de thèse
  • Placez le document de recherche au format PDF dans un dossier de projet, par exemple nommé research_paper.pdf.
  • Remarque : les fichiers doivent être des PDF lisibles, les images scannées ne sont pas valables.
  1. Exécution de scripts
  • Saisissez-le dans le terminal :
python paper_to_podcast.py path/to/your/research_paper.pdf
  • l'interchangeabilité path/to/your/research_paper.pdf pour le chemin d'accès à votre fichier. Le script commencera le traitement.

Fonction Opération Déroulement

Générer des podcasts

  • fichier d'entréeSpécifiez le chemin d'accès au fichier PDF lors de l'exécution du script et l'outil lira le contenu de l'article.
  • Générer le dialogue: :
  • Le système fonctionne de la manière suivante Planning Chain Créez un plan détaillé pour chaque partie du document afin de garantir un contenu précis.
  • utiliser Discussion ChainCombiné à des modèles génératifs améliorés par la recherche, il transforme le document en un dialogue à trois personnes. Le modérateur présente le sujet, l'apprenant pose des questions et l'expert donne des explications détaillées.
  • Enhancement Chain Optimisez les scripts pour supprimer le contenu en double et ajustez les transitions pour garantir un dialogue fluide.
  • sortie audio: :
  • Une fois le script généré, l'API OpenAI convertit le texte en audio avec des voix réalistes pour chaque personnage.
  • Le fichier de sortie est enregistré par défaut dans le dossier du projet, et l'échantillon se trouve dans le dossier ./sample_podcasts Au milieu.

Voir l'échantillon

  • Le projet fournit des exemples de podcasts générés au niveau du chemin d'accès de l'application ./sample_podcasts. Vous pouvez d'abord écouter des extraits pour vous faire une idée du style de dialogue et des effets audio.

Détails techniques

  • structure du code: :
  • Planning ChainLes erreurs de génération : Planifiez le contenu de votre document afin de réduire les erreurs de génération.
  • Discussion ChainLes dialogues : Générer des dialogues qui restent cohérents avec le texte d'origine.
  • Enhancement ChainLe texte de l'article est en anglais : embellissez le texte pour améliorer l'expérience d'écoute.
  • Text-to-Speech: à l'audio à l'aide de l'API OpenAI.
  • les coûts (de fabrication, de production, etc.)La production d'un podcast de 9 minutes d'un article de 19 pages coûte environ 0,16 $, en fonction de la longueur du contenu.

Précautions d'emploi

  • exigences en matière de réseauLe processus de génération nécessite des appels en réseau à l'API OpenAI.
  • format de fichier: Seul le format PDF est pris en charge, assurez-vous que le texte est extractible.
  • détection des erreurs: :
  • Si l'on vous le demande ModuleNotFoundErrorLa course à pied pip list Vérifiez que les dépendances sont installées.
  • Si la clé n'est pas valide, vérifiez le .env est correctement configuré.
  • Recommandations d'optimisationActuellement, la génération prend beaucoup de temps, le développeur prévoit d'améliorer la vitesse, nous recommandons de suivre les mises à jour de GitHub.

projets futurs

  • Réduire le temps de génération des podcasts et augmenter l'efficacité.
  • Prise en charge des modèles natifs (par exemple Ollama) et de la synthèse vocale open source, réduisant la dépendance à l'égard d'OpenAI.
  • Les utilisateurs peuvent soumettre des suggestions d'optimisation ou participer au développement via GitHub.

Grâce à ces étapes, vous pouvez transformer votre document en podcast avec Paper to Podcast et étudier facilement à tout moment et en tout lieu.

 

scénario d'application

  1. Apprentissage des navetteurs
    Écouter des podcasts pour découvrir le contenu du journal sans regarder un écran en conduisant ou en prenant les transports en commun.
  2. échange universitaire
    Le chercheur convertit le document en audio et le partage avec l'équipe ou les étudiants pour faciliter la discussion.
  3. amateur
    Les personnes qui s'intéressent à des domaines académiques mais n'ont pas le temps de lire des articles utilisent les podcasts pour apprendre rapidement les bases.

 

QA

  1. Combien coûte la création d'un podcast ?
    En utilisant l'API OpenAI, un article de 19 pages génère un podcast de 9 minutes pour environ 0,16 dollar, en fonction de la longueur de l'article.
  2. Prend-il en charge les fichiers autres que les PDF ?
    Non pris en charge, n'accepte actuellement que le format PDF, il faut d'abord convertir les autres formats en PDF.
  3. Comment la durée d'un podcast est-elle déterminée ?
    En fonction du nombre de pages et de la complexité du document, un document de 19 pages génère environ 9 minutes de son.
  4. Puis-je adapter mon rôle ?
    Actuellement fixé à Host, Learner et Expert, vous devez ajuster le code vous-même si vous voulez changer de rôle, voir GitHub pour plus de détails.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...