Kreuzberg : outil open source pour extraire du texte de n'importe quel document

Introduction générale

Kreuzberg est une bibliothèque qui simplifie l'extraction de texte des fichiers PDF, conçue pour fournir une solution d'extraction de texte simple et sans problème. La bibliothèque est particulièrement bien adaptée aux services RAG (Retrieval-Augmented Generation) qui nécessitent une extraction de texte. Il combine une variété d'options open source et commerciales pour fournir des capacités d'extraction de texte flexibles.

Kreuzberg:从任何文档中提取文本的开源工具

 

Liste des fonctions

  • Extraction de texte en PDF: Extraire le contenu textuel des fichiers PDF.
  • OCR d'images/PDF: Reconnaissance optique de caractères d'images et de PDF à l'aide de Tesseract-OCR.
  • Extraction de texte non PDFExtraction de textes dans d'autres formats par l'intermédiaire de Pandoc.
  • opération localeLes systèmes de gestion de l'information et de la communication (SIG) sont des outils d'aide à l'installation et à l'exploitation au niveau local, faciles à contrôler et à gérer.
  • Open source et gratuit: Basé sur la licence MIT open source, libre de droits.

 

Utiliser l'aide

Processus d'installation

  1. Installation des paquets Python: :
   pip install kreuzberg
  1. Installation des dépendances du système: :
    • Pandoc: pour l'extraction de texte non-PDF (licence GPL v2.0, utilisé comme CLI uniquement).
    • Tesseract-OCR: OCR pour les images et les PDF (licence Apache).

Lignes directrices pour l'utilisation

  1. Utilisation de base: :
    • Importer la bibliothèque et l'initialiser : python
      from kreuzberg import Kreuzberg
      extractor = Kreuzberg()
    • Extraire le texte du PDF : python
      text = extractor.extract_text('path/to/pdf/file.pdf')
      print(text)
  2. Fonction OCR: :
    • ROC d'une image ou d'un PDF : python
      ocr_text = extractor.ocr('path/to/image_or_pdf')
      print(ocr_text)
  3. Extraction de texte non PDF: :
    • Utilisez Pandoc pour extraire du texte dans d'autres formats : python
      other_text = extractor.extract_text('path/to/other/file')
      print(other_text)

Fonction détaillée du déroulement des opérations

  1. Extraction de texte en PDF: :
    • Assurez-vous que le chemin d'accès au fichier PDF est correct.
    • utiliserextract_textpour extraire le texte.
    • Traiter les données textuelles extraites pour les opérations ultérieures.
  2. Fonction OCR: :
    • Installer et configurer Tesseract-OCR.
    • utiliserocrpour le traitement OCR d'images ou de PDF.
    • Obtenir et traiter les résultats de l'OCR.
  3. Extraction de texte non PDF: :
    • Installer et configurer Pandoc.
    • utiliserextract_textpour extraire du texte dans d'autres formats.
    • Traiter les données textuelles extraites pour les opérations ultérieures.

Grâce aux étapes ci-dessus, les utilisateurs peuvent facilement commencer à utiliser les opérations d'extraction de texte de Kreuzberg pour répondre à une variété de besoins en matière de traitement de texte.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...