AI Personal Learning
und praktische Anleitung
讯飞绘镜

Kreuzberg: Open-Source-Tool zum Extrahieren von Text aus beliebigen Dokumenten

Allgemeine Einführung

Kreuzberg ist eine Bibliothek zur Vereinfachung der Textextraktion aus PDF-Dateien, entwickelt, um eine einfache, problemlose Lösung zur Textextraktion zu bieten. Die Bibliothek eignet sich besonders gut für RAG-Dienste (Retrieval-Augmented Generation), die eine Textextraktion erfordern.Kreuzberg unterstützt den lokalen Betrieb, ist einfach zu steuern und kostengünstig. Sie kombiniert eine Vielzahl von Open-Source- und kommerziellen Optionen, um flexible Textextraktionsmöglichkeiten zu bieten.

Kreuzberg:从任何文档中提取文本的开源工具-1


 

Funktionsliste

  • PDF-Text-ExtraktionExtrahieren von Textinhalten aus PDF-Dateien.
  • Bild/PDF OCRTesseract-OCR: Optische Zeichenerkennung von Bildern und PDFs mit Tesseract-OCR.
  • Extraktion von Nicht-PDF-TextPandoc: Extraktion von Text in anderen Formaten über Pandoc.
  • lokaler BetriebUnterstützt lokale Installation und Bedienung, einfache Steuerung und Verwaltung.
  • Quelloffen und kostenlos: Basiert auf der MIT-Lizenz, Open Source, kostenlos.

 

Hilfe verwenden

Einbauverfahren

  1. Installation von Python-Paketen::
   pip install kreuzberg
  1. Installation von Systemabhängigkeiten::
    • Pandocfür Nicht-PDF-Textextraktion (GPL v2.0-Lizenz, nur als CLI verwendet).
    • Tesseract-OCROCR für Bilder und PDFs (Apache-Lizenz).

Leitlinien für die Verwendung

  1. Grundlegende Verwendung::
    • Importieren Sie die Bibliothek und initialisieren Sie sie: python
      from kreuzberg import Kreuzberg
      extractor = Kreuzberg()
    • PDF-Text extrahieren: python
      text = extractor.extract_text('path/to/pdf/file.pdf')
      print(text)
  2. OCR-Funktion::
    • OCR eines Bildes oder einer PDF-Datei: python
      ocr_text = extractor.ocr('path/to/image_or_pdf')
      print(ocr_text)
  3. Extraktion von Nicht-PDF-Text::
    • Verwenden Sie Pandoc, um Text in anderen Formaten zu extrahieren: python
      other_text = extractor.extract_text('path/to/other/file')
      print(other_text)

Detaillierte Funktionsabläufe

  1. PDF-Text-Extraktion::
    • Stellen Sie sicher, dass der Pfad der PDF-Datei korrekt ist.
    • ausnutzenextract_textMethode, um den Text zu extrahieren.
    • Verarbeiten Sie die extrahierten Textdaten für nachfolgende Operationen.
  2. OCR-Funktion::
    • Installieren und konfigurieren Sie Tesseract-OCR.
    • ausnutzenocrMethode zur OCR-Verarbeitung von Bildern oder PDFs.
    • OCR-Ergebnisse abrufen und verarbeiten.
  3. Extraktion von Nicht-PDF-Text::
    • Installieren und konfigurieren Sie Pandoc.
    • ausnutzenextract_textMethode, um Text in anderen Formaten zu extrahieren.
    • Verarbeiten Sie die extrahierten Textdaten für nachfolgende Operationen.

Durch die oben beschriebenen Schritte können die Benutzer leicht mit Kreuzberg Textextraktionsoperationen beginnen, um eine Vielzahl von Textverarbeitungsanforderungen zu erfüllen.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Kreuzberg: Open-Source-Tool zum Extrahieren von Text aus beliebigen Dokumenten
de_DEDeutsch