Kreuzberg : outil open source pour extraire du texte de n'importe quel document
Introduction générale
Kreuzberg est une bibliothèque qui simplifie l'extraction de texte des fichiers PDF, conçue pour fournir une solution d'extraction de texte simple et sans problème. La bibliothèque est particulièrement bien adaptée aux services RAG (Retrieval-Augmented Generation) qui nécessitent une extraction de texte. Il combine une variété d'options open source et commerciales pour fournir des capacités d'extraction de texte flexibles.

Liste des fonctions
- Extraction de texte en PDF: Extraire le contenu textuel des fichiers PDF.
- OCR d'images/PDF: Reconnaissance optique de caractères d'images et de PDF à l'aide de Tesseract-OCR.
- Extraction de texte non PDFExtraction de textes dans d'autres formats par l'intermédiaire de Pandoc.
- opération localeLes systèmes de gestion de l'information et de la communication (SIG) sont des outils d'aide à l'installation et à l'exploitation au niveau local, faciles à contrôler et à gérer.
- Open source et gratuit: Basé sur la licence MIT open source, libre de droits.
Utiliser l'aide
Processus d'installation
- Installation des paquets Python: :
pip install kreuzberg
- Installation des dépendances du système: :
- Pandoc: pour l'extraction de texte non-PDF (licence GPL v2.0, utilisé comme CLI uniquement).
- Tesseract-OCR: OCR pour les images et les PDF (licence Apache).
Lignes directrices pour l'utilisation
- Utilisation de base: :
- Importer la bibliothèque et l'initialiser :
python
from kreuzberg import Kreuzberg
extractor = Kreuzberg() - Extraire le texte du PDF :
python
text = extractor.extract_text('path/to/pdf/file.pdf')
print(text)
- Importer la bibliothèque et l'initialiser :
- Fonction OCR: :
- ROC d'une image ou d'un PDF :
python
ocr_text = extractor.ocr('path/to/image_or_pdf')
print(ocr_text)
- ROC d'une image ou d'un PDF :
- Extraction de texte non PDF: :
- Utilisez Pandoc pour extraire du texte dans d'autres formats :
python
other_text = extractor.extract_text('path/to/other/file')
print(other_text)
- Utilisez Pandoc pour extraire du texte dans d'autres formats :
Fonction détaillée du déroulement des opérations
- Extraction de texte en PDF: :
- Assurez-vous que le chemin d'accès au fichier PDF est correct.
- utiliser
extract_text
pour extraire le texte. - Traiter les données textuelles extraites pour les opérations ultérieures.
- Fonction OCR: :
- Installer et configurer Tesseract-OCR.
- utiliser
ocr
pour le traitement OCR d'images ou de PDF. - Obtenir et traiter les résultats de l'OCR.
- Extraction de texte non PDF: :
- Installer et configurer Pandoc.
- utiliser
extract_text
pour extraire du texte dans d'autres formats. - Traiter les données textuelles extraites pour les opérations ultérieures.
Grâce aux étapes ci-dessus, les utilisateurs peuvent facilement commencer à utiliser les opérations d'extraction de texte de Kreuzberg pour répondre à une variété de besoins en matière de traitement de texte.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...