Non structuré : outils open source de prétraitement de documents non structurés, outils de traitement de données non structurées

Introduction générale

Unstructured-IO fournit une gamme de composants open source pour le traitement et le prétraitement d'images et de documents textuels tels que PDF, HTML, documents Word, etc. L'objectif principal est de simplifier et d'optimiser les flux de traitement des données, en particulier pour les applications LLM (Large Language Model). Les fonctionnalités modulaires et les connecteurs d'Unstructured-IO forment un système unifié qui rend l'ingestion et le prétraitement des données efficaces et adaptables à différentes plates-formes.

Unstructured:开源预处理非结构化文档,无结构数据处理的利器

 

 

Liste des fonctions

  • Acquisition et prétraitement des données
  • Prise en charge de plusieurs types de documents (PDF, HTML, Word, etc.)
  • Fonctions et connecteurs modulaires
  • Fournit des API et des bibliothèques client open source
  • Prise en charge du déploiement en conteneur Docker
  • Fournir des API sans serveur pour améliorer les performances

 

 

Utiliser l'aide

Processus d'installation

  1. Utilisation de la bibliothèque d'exécution des conteneurs Docker
    • Assurez-vous que Docker est installé.
    • Exécutez la commande suivante pour télécharger et exécuter l'image Docker appropriée :
      docker pull downloads.unstructured.io/unstructured-io/unstructured:latest
      docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
      
  2. Installer des bibliothèques à partir de PyPI
    • Utilisez pip pour l'installation :
      pip install unstructured
      
  3. Installation de développement local
    • Cloner un dépôt GitHub :
      git clone https://github.com/Unstructured-IO/unstructured.git
      cd unstructured
      pip install -e .
      

 

Lignes directrices pour l'utilisation

  1. L'ingestion de données
    • utiliser unstructured La bibliothèque ingère des documents :
      from unstructured.partition.pdf import partition_pdf
      document = partition_pdf("example.pdf")
      
  2. Prétraitement des données
    • Nettoyer les documents et les classer par ordre de priorité :
      from unstructured.cleaners.core import clean
      cleaned_document = clean(document)
      
  3. Connexion aux sources de données et aux cibles
    • Utilisez le connecteur pour transférer les données vers l'emplacement cible :
      from unstructured.connectors import send_to_destination
      send_to_destination(cleaned_document, destination="s3://bucket-name")
      
  4. API sans serveur
    • Enregistrez-vous et obtenez la clé API :
      • entretiens Page d'enregistrement de l'API non structurée.
      • Obtenez la clé API et commencez à l'utiliser :
        import requests
        headers = {"Authorization": "Bearer YOUR_API_KEY"}
        response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document": "example.pdf"})
        
© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...