Non structuré : outils open source de prétraitement de documents non structurés, outils de traitement de données non structurées
Introduction générale
Unstructured-IO fournit une gamme de composants open source pour le traitement et le prétraitement d'images et de documents textuels tels que PDF, HTML, documents Word, etc. L'objectif principal est de simplifier et d'optimiser les flux de traitement des données, en particulier pour les applications LLM (Large Language Model). Les fonctionnalités modulaires et les connecteurs d'Unstructured-IO forment un système unifié qui rend l'ingestion et le prétraitement des données efficaces et adaptables à différentes plates-formes.

Liste des fonctions
- Acquisition et prétraitement des données
- Prise en charge de plusieurs types de documents (PDF, HTML, Word, etc.)
- Fonctions et connecteurs modulaires
- Fournit des API et des bibliothèques client open source
- Prise en charge du déploiement en conteneur Docker
- Fournir des API sans serveur pour améliorer les performances
Utiliser l'aide
Processus d'installation
- Utilisation de la bibliothèque d'exécution des conteneurs Docker
- Assurez-vous que Docker est installé.
- Exécutez la commande suivante pour télécharger et exécuter l'image Docker appropriée :
docker pull downloads.unstructured.io/unstructured-io/unstructured:latest docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
- Installer des bibliothèques à partir de PyPI
- Utilisez pip pour l'installation :
pip install unstructured
- Utilisez pip pour l'installation :
- Installation de développement local
- Cloner un dépôt GitHub :
git clone https://github.com/Unstructured-IO/unstructured.git cd unstructured pip install -e .
- Cloner un dépôt GitHub :
Lignes directrices pour l'utilisation
- L'ingestion de données
- utiliser
unstructured
La bibliothèque ingère des documents :from unstructured.partition.pdf import partition_pdf document = partition_pdf("example.pdf")
- utiliser
- Prétraitement des données
- Nettoyer les documents et les classer par ordre de priorité :
from unstructured.cleaners.core import clean cleaned_document = clean(document)
- Nettoyer les documents et les classer par ordre de priorité :
- Connexion aux sources de données et aux cibles
- Utilisez le connecteur pour transférer les données vers l'emplacement cible :
from unstructured.connectors import send_to_destination send_to_destination(cleaned_document, destination="s3://bucket-name")
- Utilisez le connecteur pour transférer les données vers l'emplacement cible :
- API sans serveur
- Enregistrez-vous et obtenez la clé API :
- entretiens Page d'enregistrement de l'API non structurée.
- Obtenez la clé API et commencez à l'utiliser :
import requests headers = {"Authorization": "Bearer YOUR_API_KEY"} response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document": "example.pdf"})
- Enregistrez-vous et obtenez la clé API :
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...