Allgemeine Einführung
Unstructured-IO bietet eine Reihe von Open-Source-Komponenten für die Verarbeitung und Vorverarbeitung von Bildern und Textdokumenten wie PDF, HTML, Word-Dokumenten usw. Das Hauptziel ist die Vereinfachung und Optimierung von Datenverarbeitungs-Workflows, insbesondere für Large Language Model (LLM)-Anwendungen. Das Hauptziel ist die Vereinfachung und Optimierung von Datenverarbeitungs-Workflows, insbesondere für Large Language Model (LLM)-Anwendungen. Die modulare Funktionalität und die Konnektoren von Unstructured-IO bilden ein einheitliches System, das die Datenaufnahme und -vorverarbeitung effizient und an verschiedene Plattformen anpassbar macht.
Funktionsliste
- Dateneingabe und Vorverarbeitung
- Unterstützung für mehrere Dokumenttypen (PDF, HTML, Word usw.)
- Modulare Funktionen und Anschlüsse
- Bietet Open-Source-APIs und Client-Bibliotheken
- Unterstützt den Einsatz von Docker-Containern
- Bereitstellung von serverlosen APIs zur Verbesserung der Leistung
Hilfe verwenden
Ablauf der Installation
- Verwendung der Docker Container Runtime Library
- Stellen Sie sicher, dass Docker installiert ist.
- Führen Sie den folgenden Befehl aus, um das entsprechende Docker-Image herunterzuladen und auszuführen:
docker pull downloads.unstructured.io/unstructured-io/unstructured:latest docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
- Installation von Bibliotheken aus PyPI
- Verwenden Sie pip zur Installation:
Pip-Installation unstrukturiert
- Verwenden Sie pip zur Installation:
- Lokale Entwicklung Installation
- Klonen Sie ein GitHub-Repository:
git klonen. https://github.com/Unstructured-IO/unstructured.git cd unstrukturiert pip install -e .
- Klonen Sie ein GitHub-Repository:
Richtlinien für die Verwendung
- Dateneingabe
- ausnutzen
unstrukturiert
Die Bibliothek nimmt die Dokumente auf:von unstrukturierte.partition.pdf importieren partition_pdf Dokument = partition_pdf("beispiel.pdf")
- ausnutzen
- Vorverarbeitung der Daten
- Dokumente bereinigen und stückeln:
von unstrukturierte.reiniger.kern importieren clean cleaned_document = clean(Dokument)
- Dokumente bereinigen und stückeln:
- Verbindung zu Datenquellen und Zielen
- Verwenden Sie das Verbindungsstück, um Daten an den Zielort zu übertragen:
von unstrukturierte.Verbinder importieren send_to_destination send_to_destination(bereinigtes_Dokument, destination="s3://bucket-name")
- Verwenden Sie das Verbindungsstück, um Daten an den Zielort zu übertragen:
- Serverlose API
- Registrieren Sie sich und erhalten Sie den API-Schlüssel:
- Interviews Unstrukturierte API-Registrierungsseite.
- Holen Sie sich den API-Schlüssel und verwenden Sie ihn:
importieren Anfragen headers = {"Autorisierung": "Träger YOUR_API_KEY"} response = requests.post("https://api.unstructured.io/process", headers=headers, json={"Dokument": "beispiel.pdf"})
- Registrieren Sie sich und erhalten Sie den API-Schlüssel: