Allgemeine Einführung
Paper Reviewer ist ein Open-Source-Projekt, das entwickelt wurde, um umfassende Rezensionen von arXiv-Papieren zu erstellen und sie in Blog-Posts zu verwandeln. Das Projekt bietet Unterstützung für die Hugging Face's Daily Papers Website, um automatisch Blogbeiträge zu generieren. Durch die Verwendung der Python-Skripte collect.py und convert.py können Benutzer Paper-Reviews sammeln und sie in eine Blog-Posts-Vorlage mit festem Design umwandeln.
Funktionsliste
Merkmale: 1, Content Processing, können Sie den Textinhalt zu lesen, extrahieren Sie die Diagramme, Bilder, Tabellen in das Papier 2, solange das Papier ID, vollautomatische Verarbeitung und Erzeugung, Unterstützung Stapelverarbeitung des Papiers 3, Unterstützung für die Anpassung, AI Parsing-Tools, Blog-Vorlagen und so weiter.
- Generate Comprehensive Review: Erzeugt eine ausführliche Rezension aus einer gegebenen arXiv-Paper-ID.
- In Blogposts umwandeln: Konvertieren Sie generierte Bewertungsinhalte in Blogposts, die einer festen Designvorlage folgen.
- Unterstützung mehrerer APIs: optionale Verwendung von Upstage und Zwillinge API zur Extraktion von Bild- und visuellen Informationen.
- Automatisieren Sie den Prozess: Automatisieren Sie den Erfassungs- und Konvertierungsprozess durch Skripte und reduzieren Sie so manuelle Eingriffe.
- Flexible Konfiguration: Unterstützt eine Vielzahl von Konfigurationsoptionen, die der Benutzer nach seinen Bedürfnissen anpassen kann.
Hilfe verwenden
Ablauf der Installation
- Installation von Abhängigkeiten::
- Verwenden Sie pip, um die für das Projekt erforderlichen Python-Abhängigkeiten zu installieren:
pip install -r anforderungen.txt
- Installieren Sie Poppler, um PDF in Bilder zu konvertieren:
- Für Ubuntu-Benutzer verwenden Sie den folgenden Befehl:
apt install poppler-utils
- Benutzer von macOS können Homebrew zur Installation verwenden:
brew install poppler
- Für Ubuntu-Benutzer verwenden Sie den folgenden Befehl:
- Verwenden Sie pip, um die für das Projekt erforderlichen Python-Abhängigkeiten zu installieren:
- Setzen von Umgebungsvariablen::
- Setzen Sie GEMINI_API_KEY (erforderlich):
export GEMINI_API_KEY="ihr_gemini_api_schlüssel"
- Optional kann der API-Schlüssel für Upstage und R2 festgelegt werden:
export UPSTAGE_API_KEY="dein_upstage_api_key" export R2_ACCESS_KEY_ID="ihre_r2_zugriffsschlüssel_id" export R2_SECRET_ACCESS_KEY="ihr_r2_geheim_access_key" export R2_S3_ENDPOINT_URL="ihr_r2_s3_endpunkt_url" export R2_DOMAIN_NAME="ihr_r2_domain_name"
- Setzen Sie GEMINI_API_KEY (erforderlich):
Verwendung Prozess
- Sammlung von Papieren zur Überprüfung::
- Führen Sie das Skript collect.py aus, um eine Übersicht über das Papier mit der arXiv-ID zu erstellen:
python collect.py --arxiv-id "ihre_arxiv_id" --stop-at-no-html
- Wenn Sie Bildinformationen extrahieren müssen, können Sie die Option --use-upstage verwenden:
python collect.py --arxiv-id "ihre_arxiv_id" --use-upstage
- Führen Sie das Skript collect.py aus, um eine Übersicht über das Papier mit der arXiv-ID zu erstellen:
- In einen Blogbeitrag umgewandelt::
- Führen Sie das Skript convert.py aus, um die gesammelten Bewertungen in Blogbeiträge umzuwandeln:
python convert.py --arxiv-id "ihre_arxiv_id" --template "ihre_template_datei"
- Wenn Sie Bilder auf R2 hochladen müssen, können Sie die Option --upload-images-r2 verwenden:
python convert.py --arxiv-id "ihre_arxiv_id" --upload-images-r2
- Führen Sie das Skript convert.py aus, um die gesammelten Bewertungen in Blogbeiträge umzuwandeln:
caveat
- Template-AnpassungBlog-Posts folgen einer festen Designvorlage. Wenn Sie das Design anpassen möchten, müssen Sie die Vorlagendatei selbst ändern.
- KostenkontrolleEs wird empfohlen, die Option --stop-at-no-html zu verwenden, um die Kosten bei der Verarbeitung von Dokumenten ohne HTML-Seiten zu reduzieren.
- API-VerwendungUpstage und Gemini APIs bieten eine genauere Extraktion von Bildinformationen, können aber zusätzliche Kosten verursachen.
Mit den oben genannten Schritten können Benutzer auf einfache Weise umfassende Rezensionen aus arXiv-Papieren erstellen und sie in Blogbeiträge für eine Vielzahl von Szenarien, einschließlich akademischer Forschung und Blogschreiben, umwandeln.