AI Personal Learning
und praktische Anleitung

pdf-extract-api: lokal betriebenes PDF-Extraktionswerkzeug zur Anonymisierung persönlicher Informationen

Allgemeine Einführung

pdf-extract-api ist eine Dokumentenextraktions- und -parsing-API, die die Anonymisierung von Dokumenten mit modernster OCR-Technologie und von Ollama unterstützten Modellen unterstützt. Sie kann jedes Dokument oder Bild in strukturiertes JSON oder Markdown konvertieren und unterstützt die hochpräzise Extraktion von Tabellendaten, Zahlen und mathematischen Formeln. Die auf FastAPI basierende API verwendet Celery für die asynchrone Verarbeitung von Aufgaben und Redis für die Zwischenspeicherung von OCR-Ergebnissen, um eine effiziente und zuverlässige Verarbeitung von Dokumenten zu gewährleisten.

pdf-extract-api: Konvertierung von PDF-Dokumenten oder Bildern in JSON/Markdown, automatische Löschung persönlicher Daten-1


 

Funktionsliste

  • Hochpräzise Konvertierung von PDF in Markdown
  • PDF zu JSON Konvertierung
  • Verbesserung der OCR-Ergebnisse mit LLM (z. B. LLama 3.1)
  • Löschung von personenbezogenen Daten (PII)
  • Verteilte Warteschlangenverarbeitung (mit Celery)
  • Zwischenspeicherung von Ergebnissen (mit Redis)
  • CLI-Tools zum Senden von Aufgaben und Verarbeiten von Ergebnissen

 

Hilfe verwenden

Ablauf der Installation

  1. Klon-Lager::
    git clone https://github.com/CatchTheTornado/pdf-extract-api.git
    cd pdf-extract-api
    
2. **Installieren Sie die Abhängigkeiten** :
Stellen Sie sicher, dass Docker und Docker Compose installiert sind, und führen Sie dann den folgenden Befehl aus:
```bash
docker-compose auf

Verwendung Prozess

  1. PDF in Markdown konvertieren ::
    Verwenden Sie CLI-Tools, um z. B. Aufgaben zu senden und die Ergebnisse zu verarbeiten:
python client/cli.py ocr --file examples/example-mri.pdf --prompt_file examples/example-mri-2-json-prompt.txt

Damit werden PDF-Dateien in das Markdown-Format konvertiert.

  1. PDF in JSON konvertieren und PII entfernen ::
python client/cli.py ocr --file examples/example-invoice.pdf --prompt_file examples/example-invoice-remove-pii.txt

Dadurch wird die PDF-Datei in das JSON-Format konvertiert und personenbezogene Daten werden entfernt.

  1. Zwischenspeicherung von OCR-Ergebnissen ::
    Verwenden Sie Redis zum Zwischenspeichern von OCR-Ergebnissen, um die Verarbeitungseffizienz zu verbessern.

Detaillierte Vorgehensweise

  • Neue Dienste Vergewissern Sie sich, dass die Docker-Container ordnungsgemäß ausgeführt werden und dass OCR-Aufgaben über das CLI-Tool gesendet werden können, sobald der Dienst gestartet ist.
  • Senden von Aufgaben Verwenden Sie das CLI-Tool, um OCR-Aufgaben zu senden, und geben Sie die Eingabedatei und das Konvertierungsformat an.
  • Ergebnis Nach Abschluss der Aufgabe werden die Ergebnisse im angegebenen Format ausgegeben und können direkt verwendet oder weiterverarbeitet werden.
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " pdf-extract-api: lokal betriebenes PDF-Extraktionswerkzeug zur Anonymisierung persönlicher Informationen

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)