AI Personal Learning
und praktische Anleitung

Textextraktions-API (text-extract-api): visuelle Extraktion von Textinformationen, anonymisiertes PDF-Extraktionswerkzeug

Allgemeine Einführung

Die Textextraktions-API (text-extract-api) ist ein leistungsstarkes Tool zum Extrahieren und Parsen von Inhalten aus einer Vielzahl von Dokumentenformaten (z. B. PDF, Word, PPTX usw.). Die API nutzt modernste OCR-Technologie (Optical Character Recognition) und Ollama-unterstützte Modelle, um jedes Dokument oder Bild in ein strukturiertes JSON- oder Markdown-Format zu konvertieren. Zu den wichtigsten Funktionen gehören die hochpräzise Textextraktion, die Entfernung personenbezogener Daten (PII), die Unterstützung mehrerer Speicherstrategien und die verteilte Aufgabenverarbeitung. Die API für die Textextraktion wurde mit FastAPI entwickelt und verwendet Celery für die asynchrone Aufgabenverarbeitung und Redis für die Zwischenspeicherung von OCR-Ergebnissen, um eine effiziente und zuverlässige Dokumentenverarbeitung zu gewährleisten.

pdf-extract-api ist eine Dokumentenextraktions- und -parsing-API, die die Anonymisierung von Dokumenten mit modernster OCR-Technologie und von Ollama unterstützten Modellen unterstützt. Sie kann jedes Dokument oder Bild in strukturiertes JSON oder Markdown konvertieren und unterstützt die hochpräzise Extraktion von Tabellendaten, Zahlen und mathematischen Formeln. Die auf FastAPI basierende API verwendet Celery für die asynchrone Verarbeitung von Aufgaben und Redis für die Zwischenspeicherung von OCR-Ergebnissen, um eine effiziente und zuverlässige Verarbeitung von Dokumenten zu gewährleisten.


Textextraktions-API (text-extract-api): visuelle Extraktion von Textinformationen, anonymisiertes PDF-Extraktionswerkzeug-1

 

pdf-extract-api: Konvertierung von PDF-Dokumenten oder Bildern in JSON/Markdown, automatische Löschung persönlicher Daten-1

 

Funktionsliste

  • Hochpräzise OCR: Verwenden Sie PyTorch, Marker, Llama3.2-vision und andere OCR-Strategien für eine hochpräzise Textextraktion.
  • Dokumentenkonvertierung: Unterstützung für PDF-, Word-, PPTX- und andere Dokumente im Markdown- oder JSON-Format.
  • PII entfernen: Identifiziert und entfernt automatisch persönlich identifizierbare Informationen aus Dokumenten.
  • Verteilte Verarbeitung: Verwenden Sie Celery für die verteilte Aufgabenverarbeitung, um die Verarbeitungseffizienz zu verbessern.
  • Caching-Mechanismus: Verwenden Sie Redis zum Zwischenspeichern von OCR-Ergebnissen, um die wiederholte Verarbeitungszeit zu reduzieren.
  • Multi-Storage-Strategie: Unterstützung von lokalem Dateisystem, Google Drive und anderen Speichermethoden.
  • CLI-Tools: Bereitstellung von Befehlszeilentools, die es den Benutzern erleichtern, Aufgaben zu senden und die Ergebnisse zu verarbeiten.

 

Hilfe verwenden

Ablauf der Installation

  1. Ollama herunterladen und installieren.
  2. Laden Sie Docker herunter und installieren Sie es.
  3. Klonen Sie das text-extract-api-Repository:
   git clone https://github.com/CatchTheTornado/text-extract-api.git
  1. Wechseln Sie in das Projektverzeichnis und starten Sie den Docker-Container:
   cd text-extract-api
docker-komponieren auf

Verwendung

Dokumentenkonvertierung

  1. Laden Sie die zu konvertierenden Dokumente in das angegebene Verzeichnis hoch.
  2. Verwenden Sie das CLI-Tool, um Konvertierungsaufgaben zu senden:
   python client/cli.py ocr_upload --file examples/example.pdf --prompt_file examples/example-to-json-prompt.txt
  1. Das Konvertierungsergebnis wird im JSON- oder Markdown-Format im angegebenen Verzeichnis gespeichert.

Entfernung von PII

  1. Laden Sie ein Dokument hoch, das PII enthält.
  2. Verwenden Sie das CLI-Tool, um die Entfernung von PII-Aufgaben zu senden:
   python client/cli.py ocr_upload --file examples/example-pii.pdf --prompt_file examples/example-remove-pii.txt
  1. Aus den bearbeiteten Dokumenten werden alle personenbezogenen Daten entfernt.

Detaillierte Funktionsabläufe

  1. Hochpräzise OCRDurch die Konfiguration verschiedener OCR-Strategien (z.B. Marker, Llama3.2-vision, etc.) wird eine hochpräzise Textextraktion für verschiedene Dokumente erreicht. Der Benutzer kann je nach Dokumententyp die am besten geeignete OCR-Strategie auswählen.
  2. DokumentenkonvertierungUnterstützung für PDF, Word, PPTX und andere Formate: Das Dokument wird in das Markdown- oder JSON-Format umgewandelt, um die spätere Datenverarbeitung und -analyse zu erleichtern.
  3. Entfernung von PIIIdentifiziert und entfernt automatisch personenbezogene Informationen aus Dokumenten, um den Datenschutz und die Datensicherheit zu gewährleisten.
  4. verteilte VerarbeitungDistributed task processing using Celery to support large-scale document processing tasks and improve processing efficiency.
  5. Caching-MechanismusRedis zum Zwischenspeichern von OCR-Ergebnissen verwenden, um die wiederholte Verarbeitungszeit zu reduzieren und die Reaktionszeit des Systems zu verbessern.
  6. Multi-Storage-PolitikEs werden verschiedene Speichermethoden unterstützt, wie z. B. das lokale Dateisystem, Google Drive usw. Die Benutzer können je nach ihren Bedürfnissen die geeignete Speicherstrategie wählen.
  7. CLI-ToolsBefehlszeilentools: Es werden Befehlszeilentools zur Verfügung gestellt, damit die Benutzer mit einfachen Befehlen Aufgaben senden und Ergebnisse verarbeiten können.
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Textextraktions-API (text-extract-api): visuelle Extraktion von Textinformationen, anonymisiertes PDF-Extraktionswerkzeug

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)