AI Personal Learning
und praktische Anleitung
CyberKnife-Zeichenspiegel

Unstrukturiert: Open-Source-Vorverarbeitung unstrukturierter Dokumente, Tools zur Verarbeitung unstrukturierter Daten

Allgemeine Einführung

Unstructured-IO bietet eine Reihe von Open-Source-Komponenten für die Verarbeitung und Vorverarbeitung von Bildern und Textdokumenten wie PDF, HTML, Word-Dokumenten usw. Das Hauptziel ist die Vereinfachung und Optimierung von Datenverarbeitungs-Workflows, insbesondere für Large Language Model (LLM)-Anwendungen. Das Hauptziel ist die Vereinfachung und Optimierung von Datenverarbeitungs-Workflows, insbesondere für Large Language Model (LLM)-Anwendungen. Die modulare Funktionalität und die Konnektoren von Unstructured-IO bilden ein einheitliches System, das die Datenaufnahme und -vorverarbeitung effizient und an verschiedene Plattformen anpassbar macht.

Unstrukturiert: Open-Source-Vorverarbeitung unstrukturierter Dokumente, Tools zur Verarbeitung unstrukturierter Daten-1


 

 

Funktionsliste

  • Dateneingabe und Vorverarbeitung
  • Unterstützung für mehrere Dokumenttypen (PDF, HTML, Word usw.)
  • Modulare Funktionen und Anschlüsse
  • Bietet Open-Source-APIs und Client-Bibliotheken
  • Unterstützt den Einsatz von Docker-Containern
  • Bereitstellung von serverlosen APIs zur Verbesserung der Leistung

 

 

Hilfe verwenden

Einbauverfahren

  1. Verwendung der Docker Container Runtime Library
    • Stellen Sie sicher, dass Docker installiert ist.
    • Führen Sie den folgenden Befehl aus, um das entsprechende Docker-Image herunterzuladen und auszuführen:
      docker pull downloads.unstructured.io/unstructured-io/unstructured:latest
      docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
      
  2. Installation von Bibliotheken aus PyPI
    • Verwenden Sie pip zur Installation:
      pip install unstructured
      
  3. Lokale Entwicklung Installation
    • Klonen Sie ein GitHub-Repository:
      git clone https://github.com/Unstructured-IO/unstructured.git
      cd unstructured
      pip install -e .
      

 

Leitlinien für die Verwendung

  1. Dateneingabe
    • ausnutzen unstructured Die Bibliothek nimmt die Dokumente auf:
      from unstructured.partition.pdf import partition_pdf
      document = partition_pdf("example.pdf")
      
  2. Vorverarbeitung der Daten
    • Dokumente bereinigen und stückeln:
      from unstructured.cleaners.core import clean
      cleaned_document = clean(document)
      
  3. Verbindung zu Datenquellen und Zielen
    • Verwenden Sie das Verbindungsstück, um Daten an den Zielort zu übertragen:
      from unstructured.connectors import send_to_destination
      send_to_destination(cleaned_document, destination="s3://bucket-name")
      
  4. Serverlose API
    • Registrieren Sie sich und erhalten Sie den API-Schlüssel:
      • Interviews Unstrukturierte API-Registrierungsseite.
      • Holen Sie sich den API-Schlüssel und verwenden Sie ihn:
        import requests
        headers = {"Authorization": "Bearer YOUR_API_KEY"}
        response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document": "example.pdf"})
        
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Unstrukturiert: Open-Source-Vorverarbeitung unstrukturierter Dokumente, Tools zur Verarbeitung unstrukturierter Daten
de_DEDeutsch