Kreuzberg : outil open source pour extraire du texte de n'importe quel document

Dernières ressources sur l'IAPosté il y a 7 mois Cercle de partage de l'IA

Introduction générale

Kreuzberg est une bibliothèque qui simplifie l'extraction de texte des fichiers PDF, conçue pour fournir une solution d'extraction de texte simple et sans problème. La bibliothèque est particulièrement bien adaptée aux services RAG (Retrieval-Augmented Generation) qui nécessitent une extraction de texte. Il combine une variété d'options open source et commerciales pour fournir des capacités d'extraction de texte flexibles.

Liste des fonctions

Extraction de texte en PDF: Extraire le contenu textuel des fichiers PDF.
OCR d'images/PDF: Reconnaissance optique de caractères d'images et de PDF à l'aide de Tesseract-OCR.
Extraction de texte non PDFExtraction de textes dans d'autres formats par l'intermédiaire de Pandoc.
opération localeLes systèmes de gestion de l'information et de la communication (SIG) sont des outils d'aide à l'installation et à l'exploitation au niveau local, faciles à contrôler et à gérer.
Open source et gratuit: Basé sur la licence MIT open source, libre de droits.

Utiliser l'aide

Processus d'installation

Installation des paquets Python: :

   pip install kreuzberg

Installation des dépendances du système: :
- Pandoc: pour l'extraction de texte non-PDF (licence GPL v2.0, utilisé comme CLI uniquement).
- Tesseract-OCR: OCR pour les images et les PDF (licence Apache).

Lignes directrices pour l'utilisation

Utilisation de base: :
- Importer la bibliothèque et l'initialiser : python from kreuzberg import Kreuzberg extractor = Kreuzberg()
- Extraire le texte du PDF : python text = extractor.extract_text('path/to/pdf/file.pdf') print(text)
Fonction OCR: :
- ROC d'une image ou d'un PDF : python ocr_text = extractor.ocr('path/to/image_or_pdf') print(ocr_text)
Extraction de texte non PDF: :
- Utilisez Pandoc pour extraire du texte dans d'autres formats : python other_text = extractor.extract_text('path/to/other/file') print(other_text)

Fonction détaillée du déroulement des opérations

Extraction de texte en PDF: :
- Assurez-vous que le chemin d'accès au fichier PDF est correct.
- utiliserextract_textpour extraire le texte.
- Traiter les données textuelles extraites pour les opérations ultérieures.
Fonction OCR: :
- Installer et configurer Tesseract-OCR.
- utiliserocrpour le traitement OCR d'images ou de PDF.
- Obtenir et traiter les résultats de l'OCR.
Extraction de texte non PDF: :
- Installer et configurer Pandoc.
- utiliserextract_textpour extraire du texte dans d'autres formats.
- Traiter les données textuelles extraites pour les opérations ultérieures.

Grâce aux étapes ci-dessus, les utilisateurs peuvent facilement commencer à utiliser les opérations d'extraction de texte de Kreuzberg pour répondre à une variété de besoins en matière de traitement de texte.