Paper to Podcast: Umwandlung akademischer Papiere in Podcasts mit Konversation für mehrere Personen

Neueste AI-RessourcenGeschrieben vor 6 Monaten AI-Austauschkreis

17.2K 00

Allgemeine Einführung

Paper to Podcast ist ein Open-Source-Tool, das sich darauf spezialisiert hat, akademische Forschungsarbeiten in lebendige und unterhaltsame Podcasts zu verwandeln. Es macht komplexe akademische Inhalte leicht verständlich, indem es eine Technologie der künstlichen Intelligenz nutzt, um ein PDF-formatiertes Papier in einen Dialog zwischen drei Charakteren zu verwandeln - dem Moderator, dem Lernenden und dem Experten. Das Projekt, das der Entwickler Azzedde auf GitHub veröffentlicht hat, richtet sich an Menschen, die gerne Podcasts hören, insbesondere an Nutzer, die beim Pendeln oder auf Reisen Unterlagen studieren wollen. Es nutzt die APIs von OpenAI, um Dialoge und Audiosignale zu geringen Kosten zu generieren, zum Beispiel etwa 0,16 Dollar für einen 9-minütigen Podcast eines 19-seitigen Papiers. Das Projekt ist einfach zu bedienen, und es werden Beispielpodcasts als Referenz bereitgestellt.

Funktionsliste

Umwandlung von Forschungspapieren im PDF-Format in Podcasts in Form von Dialogen mit drei Personen.
Erzeugen Sie einen interaktiven Dialog zwischen den drei Rollen des Moderators, des Lernenden und des Experten.
Verwenden Sie die OpenAI-API, um Papierinhalte in natürlichsprachiges Audio zu konvertieren.
Angebot ./sample_podcasts Beispiel-Podcasts im Ordner.
Unterstützung bei der Code-Optimierung, z.B. Verkürzung der Generierungszeit oder Verwendung lokaler Modelle.

Hilfe verwenden

Einbauverfahren

Um Paper to Podcast zu verwenden, müssen Sie die Umgebung lokal einrichten. Nachfolgend finden Sie die detaillierten Schritte:

Klon-Lager
Führen Sie den folgenden Befehl im Terminal aus, um die Projektdatei lokal herunterzuladen:

git clone https://github.com/Azzedde/paper_to_podcast.git

Wechseln Sie in das Projektverzeichnis
Geben Sie den Befehl ein, um in den Projektordner zu wechseln:

cd paper_to_podcast

Einstellen des OpenAI-API-Schlüssels

Sie müssen sich für ein Konto registrieren und erhalten einen API-Schlüssel von der offiziellen OpenAI-Website.
Erstellen Sie im Projektordner eine neue .env Dokumentation.
Fügen Sie eine Zeile in die Datei ein:

OPENAI_API_KEY=你的密钥

Speichern Sie die Datei und vergewissern Sie sich, dass der Schlüssel korrekt ist.

Installation von Abhängigkeiten

Stellen Sie sicher, dass Python auf Ihrem Computer installiert ist (empfohlene Version 3.10 oder höher).
Läuft im Terminal:

pip install -r requirements.txt

Dadurch werden die erforderlichen Bibliotheken wie PyPDF2, pydub, LangChain und so weiter installiert.

Vorbereitung der Dissertationsunterlagen

Legen Sie die Forschungsarbeit im PDF-Format in einen Projektordner, z. B. mit dem Namen research_paper.pdf.
Hinweis: Bei den Dateien muss es sich um lesbare Text-PDFs handeln, eingescannte Bilder sind nicht zulässig.

Laufende Skripte

Geben Sie ihn in das Terminal ein:

python paper_to_podcast.py path/to/your/research_paper.pdf

Austauschbarkeit path/to/your/research_paper.pdf für Ihren Dateipfad. Das Skript wird mit der Verarbeitung beginnen.

Funktion Betriebsablauf

Erzeugen von Podcasts

EingabedateiPDF-Datei: Geben Sie beim Ausführen des Skripts den Pfad zur PDF-Datei an, und das Tool wird den Inhalt des Papiers lesen.
Schaffung eines Dialogs::
Das System funktioniert wie folgt Planning Chain Erstellen Sie einen detaillierten Plan für jeden Teil des Papiers, um einen genauen Inhalt zu gewährleisten.
ausnutzen Discussion Chainin Kombination mit generativen Modellen, die das Abrufen von Informationen unterstützen, verwandelt den Vortrag in einen Dialog mit drei Personen. Der Moderator führt in das Thema ein, der Lernende stellt Fragen, und der Experte erläutert ausführlich.
Enhancement Chain Optimieren Sie Skripte, um doppelte Inhalte zu entfernen, und passen Sie Übergänge an, um einen reibungslosen Dialog zu gewährleisten.
Audio-Ausgang::
Sobald das Skript erstellt ist, wandelt die OpenAI-API den Text in Audio mit realistischen Stimmen für jeden Charakter um.
Die Ausgabedatei wird standardmäßig im Projektordner gespeichert, und das Beispiel befindet sich im Ordner ./sample_podcasts Mitte.

Muster ansehen

Das Projekt bietet Beispiel-Podcasts, die unter dem Pfad der ./sample_podcasts. Sie können sich zunächst Hörproben anhören, um sich ein Bild vom Dialogstil und den Audioeffekten zu machen.

Technische Einzelheiten

Code-Struktur::
Planning Chain: Planen Sie den Inhalt Ihrer Arbeit, um Fehler bei der Erstellung zu vermeiden.
Discussion ChainGenerieren Sie Dialoge, die mit dem Originaltext übereinstimmen.
Enhancement Chain: Verschönern Sie das Skript, um das Hörerlebnis zu verbessern.
Text-to-Speech: zu Audio mit Hilfe der OpenAI API.
(Herstellungs-, Produktions- usw.) KostenDie Erstellung eines 9-minütigen Podcasts eines 19-seitigen Papiers kostet etwa 0,16 $, je nach Länge des Inhalts.

Vorsichtsmaßnahmen für die Verwendung

NetzanforderungDer Generierungsprozess erfordert vernetzte Aufrufe der OpenAI API.
DateiformatNur PDF wird unterstützt, stellen Sie sicher, dass der Text extrahierbar ist.
Fehlererkennung::
Bei Aufforderung ModuleNotFoundErrorLaufen pip list Überprüfen Sie, ob die Abhängigkeiten installiert sind.
Wenn der Schlüssel ungültig ist, prüfen Sie die .env Datei richtig konfiguriert ist.
OptimierungsempfehlungenDer Entwickler plant, die Geschwindigkeit zu verbessern. Wir empfehlen, die Updates auf GitHub zu verfolgen.

Zukunftspläne

Reduzieren Sie die Zeit für die Erstellung von Podcasts und steigern Sie die Effizienz.
Unterstützung für native Modelle (z.B. Ollama) und Open-Source-Sprachsynthese, wodurch die Abhängigkeit von OpenAI verringert wird.
Nutzer können über GitHub Optimierungsvorschläge einreichen oder sich an der Entwicklung beteiligen.

Mit diesen Schritten können Sie Ihr Referat mit Paper to Podcast in einen Podcast umwandeln und jederzeit und überall problemlos lernen.

Anwendungsszenario

Lernen im Pendlerverkehr
Hören Sie Podcasts, um sich über den Inhalt der Zeitung zu informieren, ohne während der Fahrt oder in öffentlichen Verkehrsmitteln auf einen Bildschirm zu schauen.
akademischer Austausch
Der Forscher wandelt das Papier in Audio um und teilt es mit dem Team oder den Studenten, um die Diskussion zu erleichtern.
Hobbyist
Menschen, die neugierig auf akademische Bereiche sind, aber keine Zeit haben, Abhandlungen zu lesen, nutzen Podcasts, um schnell die Grundlagen zu lernen.

QA

Wie viel kostet es, einen Podcast zu erstellen?
Mit Hilfe der OpenAI-API kann aus einem 19-seitigen Artikel ein 9-minütiger Podcast für etwa 0,16 $ erstellt werden, je nach Länge des Artikels.
Werden auch Nicht-PDF-Dateien unterstützt?
Nicht unterstützt, akzeptiert derzeit nur das PDF-Format, andere Formate müssen zuerst in PDF konvertiert werden.
Wie wird die Länge eines Podcasts bestimmt?
Abhängig von der Seitenzahl und der Komplexität des Papiers ergibt ein 19-seitiges Papier etwa 9 Minuten Audio.
Kann ich meine Rolle anpassen?
Derzeit auf Host, Learner und Expert festgelegt, müssen Sie den Code selbst anpassen, wenn Sie die Rollen ändern möchten, siehe GitHub für Details.