Allgemeine Einführung
pdf-extract-api ist eine Dokumentenextraktions- und -parsing-API, die die Anonymisierung von Dokumenten mit modernster OCR-Technologie und von Ollama unterstützten Modellen unterstützt. Sie kann jedes Dokument oder Bild in strukturiertes JSON oder Markdown konvertieren und unterstützt die hochpräzise Extraktion von Tabellendaten, Zahlen und mathematischen Formeln. Die auf FastAPI basierende API verwendet Celery für die asynchrone Verarbeitung von Aufgaben und Redis für die Zwischenspeicherung von OCR-Ergebnissen, um eine effiziente und zuverlässige Verarbeitung von Dokumenten zu gewährleisten.
Funktionsliste
- Hochpräzise Konvertierung von PDF in Markdown
- PDF zu JSON Konvertierung
- Verbesserung der OCR-Ergebnisse mit LLM (z. B. LLama 3.1)
- Löschung von personenbezogenen Daten (PII)
- Verteilte Warteschlangenverarbeitung (mit Celery)
- Zwischenspeicherung von Ergebnissen (mit Redis)
- CLI-Tools zum Senden von Aufgaben und Verarbeiten von Ergebnissen
Hilfe verwenden
Ablauf der Installation
- Klon-Lager::
git clone https://github.com/CatchTheTornado/pdf-extract-api.git cd pdf-extract-api
2. **Installieren Sie die Abhängigkeiten** :
Stellen Sie sicher, dass Docker und Docker Compose installiert sind, und führen Sie dann den folgenden Befehl aus:
```bash
docker-compose auf
Verwendung Prozess
- PDF in Markdown konvertieren ::
Verwenden Sie CLI-Tools, um z. B. Aufgaben zu senden und die Ergebnisse zu verarbeiten:
python client/cli.py ocr --file examples/example-mri.pdf --prompt_file examples/example-mri-2-json-prompt.txt
Damit werden PDF-Dateien in das Markdown-Format konvertiert.
- PDF in JSON konvertieren und PII entfernen ::
python client/cli.py ocr --file examples/example-invoice.pdf --prompt_file examples/example-invoice-remove-pii.txt
Dadurch wird die PDF-Datei in das JSON-Format konvertiert und personenbezogene Daten werden entfernt.
- Zwischenspeicherung von OCR-Ergebnissen ::
Verwenden Sie Redis zum Zwischenspeichern von OCR-Ergebnissen, um die Verarbeitungseffizienz zu verbessern.
Detaillierte Vorgehensweise
- Neue Dienste Vergewissern Sie sich, dass die Docker-Container ordnungsgemäß ausgeführt werden und dass OCR-Aufgaben über das CLI-Tool gesendet werden können, sobald der Dienst gestartet ist.
- Senden von Aufgaben Verwenden Sie das CLI-Tool, um OCR-Aufgaben zu senden, und geben Sie die Eingabedatei und das Konvertierungsformat an.
- Ergebnis Nach Abschluss der Aufgabe werden die Ergebnisse im angegebenen Format ausgegeben und können direkt verwendet oder weiterverarbeitet werden.