Allgemeine Einführung
Chunkr ist eine selbst gehostete API zur Konvertierung von PDF-, PPTX-, DOCX- und Excel-Dateien in Daten, die für die Verwendung in RAG (Retrieval Augmented Generation) und LLM (Large Language Modelling) geeignet sind. Chunkr wurde von Lumina AI Inc. entwickelt, um strukturierte Daten in HTML- und Markdown-Formaten zu generieren, wobei fortschrittliche visuelle Modelle für die Dokumentenerfassung mit Unterstützung für OCR (Optical Character Recognition) und Bounding Box-Erkennung zum Einsatz kommen. Chunkr bietet eine effiziente Lösung für die Dokumentenverarbeitung für eine Vielzahl von Unternehmens- und Entwickleranforderungen.
Funktionsliste
- DokumentenkonvertierungUnterstützung für die Konvertierung von PDF-, PPTX-, DOCX- und Excel-Dateien in RAG/LLM-Daten.
- OCR-UnterstützungIntegration von optischer Zeichenerkennungstechnologie zur automatischen Identifizierung von Textinhalten in Dokumenten.
- Erkennung von Boundary BoxenErkennung des Dokumentenlayouts durch visuelle Modellierung und Erzeugung präziser Bounding Boxes.
- Strukturierte AusgabeGenerieren Sie strukturierte HTML- und Markdown-Formate für eine einfache Weiterverarbeitung und Nutzung.
- selbst gehostetUnterstützt Docker- und Kubernetes-Bereitstellungen, so dass Benutzer Dienste lokal oder in der Cloud selbst hosten können.
- Hohe Verfügbarkeit und SkalierbarkeitBietet Hochverfügbarkeitskonfigurationen und Erweiterungsleitfäden, um den Anforderungen von Unternehmensanwendungen gerecht zu werden.
Hilfe verwenden
Ablauf der Installation
Docker Compose Schnellstart
- Voraussetzungen für die InstallationStellen Sie sicher, dass Docker und Docker Compose installiert sind.
- Klon-Lager::
git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
- Kopieren Sie die Umgebungskonfigurationsdatei::
cp .env.example .env
- Neue Dienste::
docker compose up -d
- Zugangsdienst::
- Web-UI: http://localhost:5173
- API: http://localhost:8000
Bereitstellung der Kubernetes-Produktionsumgebung
- vorläufigStellen Sie sicher, dass der Kubernetes-Cluster und kubectl installiert sind.
- Bereitstellungsdienste::
kubectl apply -f kubernetes-manifests/
- Konfigurieren von Hochverfügbarkeit und Skalierung: Referenz
selbstentfaltung.md
Dokumentation zur Konfiguration und Skalierung der Hochverfügbarkeit.
Richtlinien für die Verwendung
- Erstellen Sie ein Konto und erhalten Sie einen API-Schlüssel::
- Besuchen Sie chunkr.ai, um ein Konto zu eröffnen.
- Melden Sie sich an, um den API-Schlüssel zu erhalten.
- Aufgaben erstellen::
curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \\
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto" \fscy -F "ocr_strategy=Auto"
- Abruf des Aufgabenstatus::
curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"
Hauptfunktionen
- DokumentenkonvertierungNach dem Hochladen der Datei wählen Sie das Konvertierungsmodell und die Zielblocklänge aus, und das System verarbeitet automatisch die strukturierten Daten und gibt sie zurück.
- OCR-ErkennungWenn Sie beim Hochladen einer Datei die OCR-Richtlinie auswählen, erkennt das System automatisch den Textinhalt des Dokuments und erstellt einen Begrenzungsrahmen.
- Ergebnisse AnsichtKonvertierte strukturierte Daten über API oder Web-UI anzeigen, unterstützt HTML- und Markdown-Formate.
Chunkr bietet eine ausführliche Dokumentation und Beispielcode, um den Benutzern einen schnellen Einstieg zu ermöglichen und sie in bestehende Systeme zu integrieren. Sowohl Entwickler als auch Geschäftsanwender können Chunkr nutzen, um Dokumente effizient zu verarbeiten und zu konvertieren und die Produktivität zu steigern.