Allgemeine Einführung
Unstructured-IO bietet eine Reihe von Open-Source-Komponenten für die Verarbeitung und Vorverarbeitung von Bildern und Textdokumenten wie PDF, HTML, Word-Dokumenten usw. Das Hauptziel ist die Vereinfachung und Optimierung von Datenverarbeitungs-Workflows, insbesondere für Large Language Model (LLM)-Anwendungen. Das Hauptziel ist die Vereinfachung und Optimierung von Datenverarbeitungs-Workflows, insbesondere für Large Language Model (LLM)-Anwendungen. Die modulare Funktionalität und die Konnektoren von Unstructured-IO bilden ein einheitliches System, das die Datenaufnahme und -vorverarbeitung effizient und an verschiedene Plattformen anpassbar macht.
Funktionsliste
- Dateneingabe und Vorverarbeitung
- Unterstützung für mehrere Dokumenttypen (PDF, HTML, Word usw.)
- Modulare Funktionen und Anschlüsse
- Bietet Open-Source-APIs und Client-Bibliotheken
- Unterstützt den Einsatz von Docker-Containern
- Bereitstellung von serverlosen APIs zur Verbesserung der Leistung
Hilfe verwenden
Einbauverfahren
- Verwendung der Docker Container Runtime Library
- Stellen Sie sicher, dass Docker installiert ist.
- Führen Sie den folgenden Befehl aus, um das entsprechende Docker-Image herunterzuladen und auszuführen:
docker pull downloads.unstructured.io/unstructured-io/unstructured:latest docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
- Installation von Bibliotheken aus PyPI
- Verwenden Sie pip zur Installation:
pip install unstructured
- Verwenden Sie pip zur Installation:
- Lokale Entwicklung Installation
- Klonen Sie ein GitHub-Repository:
git clone https://github.com/Unstructured-IO/unstructured.git cd unstructured pip install -e .
- Klonen Sie ein GitHub-Repository:
Leitlinien für die Verwendung
- Dateneingabe
- ausnutzen
unstructured
Die Bibliothek nimmt die Dokumente auf:from unstructured.partition.pdf import partition_pdf document = partition_pdf("example.pdf")
- ausnutzen
- Vorverarbeitung der Daten
- Dokumente bereinigen und stückeln:
from unstructured.cleaners.core import clean cleaned_document = clean(document)
- Dokumente bereinigen und stückeln:
- Verbindung zu Datenquellen und Zielen
- Verwenden Sie das Verbindungsstück, um Daten an den Zielort zu übertragen:
from unstructured.connectors import send_to_destination send_to_destination(cleaned_document, destination="s3://bucket-name")
- Verwenden Sie das Verbindungsstück, um Daten an den Zielort zu übertragen:
- Serverlose API
- Registrieren Sie sich und erhalten Sie den API-Schlüssel:
- Interviews Unstrukturierte API-Registrierungsseite.
- Holen Sie sich den API-Schlüssel und verwenden Sie ihn:
import requests headers = {"Authorization": "Bearer YOUR_API_KEY"} response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document": "example.pdf"})
- Registrieren Sie sich und erhalten Sie den API-Schlüssel: