Allgemeine Einführung
Kreuzberg ist eine Bibliothek zur Vereinfachung der Textextraktion aus PDF-Dateien, entwickelt, um eine einfache, problemlose Lösung zur Textextraktion zu bieten. Die Bibliothek eignet sich besonders gut für RAG-Dienste (Retrieval-Augmented Generation), die eine Textextraktion erfordern.Kreuzberg unterstützt den lokalen Betrieb, ist einfach zu steuern und kostengünstig. Sie kombiniert eine Vielzahl von Open-Source- und kommerziellen Optionen, um flexible Textextraktionsmöglichkeiten zu bieten.
Funktionsliste
- PDF-Text-ExtraktionExtrahieren von Textinhalten aus PDF-Dateien.
- Bild/PDF OCRTesseract-OCR: Optische Zeichenerkennung von Bildern und PDFs mit Tesseract-OCR.
- Extraktion von Nicht-PDF-TextExtraktion von Text in anderen Formaten über Pandoc.
- lokaler BetriebUnterstützt lokale Installation und Bedienung, einfache Steuerung und Verwaltung.
- Quelloffen und kostenlos: Basiert auf der MIT-Lizenz, Open Source, kostenlos.
Hilfe verwenden
Ablauf der Installation
- Installation von Python-Paketen::
pip install kreuzberg
- Installation von Systemabhängigkeiten::
- Pandocfür Nicht-PDF-Textextraktion (GPL v2.0-Lizenz, nur als CLI verwendet).
- Tesseract-OCROCR für Bilder und PDFs (Apache-Lizenz).
Richtlinien für die Verwendung
- Grundlegende Verwendung::
- Importieren Sie die Bibliothek und initialisieren Sie sie:
python
von kreuzberg importieren Kreuzberg
Extraktor = Kreuzberg()
- PDF-Text extrahieren:
python
text = extractor.extract_text('pfad/zu/pdf/datei.pdf')
drucken(text)
- Importieren Sie die Bibliothek und initialisieren Sie sie:
- OCR-Funktion::
- OCR eines Bildes oder einer PDF-Datei:
python
ocr_text = extractor.ocr('pfad/zu/bild_oder_pdf')
drucken(ocr_text)
- OCR eines Bildes oder einer PDF-Datei:
- Extraktion von Nicht-PDF-Text::
- Verwenden Sie Pandoc, um Text in anderen Formaten zu extrahieren:
python
anderer_text = extractor.extract_text('pfad/zu/andere/datei')
print(anderer_text)
- Verwenden Sie Pandoc, um Text in anderen Formaten zu extrahieren:
Detaillierte Funktionsabläufe
- PDF-Text-Extraktion::
- Stellen Sie sicher, dass der Pfad der PDF-Datei korrekt ist.
- ausnutzen
extrahieren_text
Methode, um den Text zu extrahieren. - Verarbeiten Sie die extrahierten Textdaten für nachfolgende Operationen.
- OCR-Funktion::
- Installieren und konfigurieren Sie Tesseract-OCR.
- ausnutzen
ocr
Methode zur OCR-Verarbeitung von Bildern oder PDFs. - OCR-Ergebnisse abrufen und verarbeiten.
- Extraktion von Nicht-PDF-Text::
- Installieren und konfigurieren Sie Pandoc.
- ausnutzen
extrahieren_text
Methode, um Text in anderen Formaten zu extrahieren. - Verarbeiten Sie die extrahierten Textdaten für nachfolgende Operationen.
Durch die oben beschriebenen Schritte können die Benutzer leicht mit Kreuzberg Textextraktionsoperationen beginnen, um eine Vielzahl von Textverarbeitungsanforderungen zu erfüllen.