Chunkr : un service tout-en-un qui utilise des modèles visuels pour l'ingestion de documents et le découpage intelligent basé sur la hiérarchie des paragraphes du texte.
Introduction générale
Chunkr est une API auto-hébergée dédiée à la conversion de fichiers PDF, PPTX, DOCX et Excel en données utilisables dans RAG (Retrieval Augmented Generation) et LLM (Large Language Modelling). Développé par Lumina AI Inc. pour générer des données structurées aux formats HTML et Markdown à l'aide de modèles visuels avancés pour l'ingestion de documents, avec prise en charge de la ROC (reconnaissance optique de caractères) et de la détection des boîtes englobantes, Chunkr fournit une solution efficace de traitement des documents pour un large éventail de besoins des entreprises et des développeurs.

Liste des fonctions
- Conversion de documentsSupport pour la conversion des fichiers PDF, PPTX, DOCX et Excel en données RAG/LLM.
- Soutien à l'OCRLes services d'aide à la décision : Intégrer la technologie de reconnaissance optique des caractères pour identifier automatiquement le contenu textuel des documents.
- Détection de la boîte de délimitationLes services d'aide à la décision : Détection de la mise en page d'un document par modélisation visuelle et génération de boîtes de délimitation exactes.
- Sortie structuréeLes formats HTML et Markdown structurés sont générés pour faciliter le traitement et l'utilisation ultérieurs.
- auto-hébergéLa solution de gestion de l'information : prend en charge les déploiements Docker et Kubernetes, ce qui permet aux utilisateurs d'auto-héberger les services localement ou dans le nuage.
- Haute disponibilité et évolutivitéLe site Web de l'entreprise : fournit des configurations de haute disponibilité et des guides d'extension pour répondre aux besoins des applications d'entreprise.
Utiliser l'aide
Processus d'installation
Démarrage rapide de Docker Compose
- Conditions préalables à l'installationPour ce faire, vous devez vous assurer que Docker et Docker Compose sont installés.
- entrepôt de clones: :
git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
- Copier le fichier de configuration de l'environnement: :
cp .env.example .env
- Démarrage des services: :
docker compose up -d
- service d'accès: :
- Interface utilisateur Web : http://localhost:5173
- API : http://localhost:8000
Déploiement d'un environnement de production Kubernetes
- préliminaireLe cas échéant, il faut s'assurer que le cluster Kubernetes et kubectl sont installés.
- Services de déploiement: :
kubectl apply -f kubernetes-manifests/
- Configuration de la haute disponibilité et de la mise à l'échelle: Référence
self-deployment.md
la documentation relative à la configuration et à la mise à l'échelle de la haute disponibilité.
Lignes directrices pour l'utilisation
- Créer un compte et obtenir une clé API: :
- Visitez le site chunkr.ai pour créer un compte.
- Connectez-vous pour obtenir la clé API.
- Création de tâches: :
curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"
- Statut de la tâche d'interrogation: :
curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"
Principales fonctions
- Conversion de documentsAprès avoir téléchargé le fichier, sélectionnez le modèle de conversion et la longueur de bloc cible, et le système traitera et renverra automatiquement les données structurées.
- Reconnaissance OCRLorsque vous sélectionnez la politique d'OCR lors du téléchargement d'un fichier, le système reconnaît automatiquement le contenu textuel du document et génère un cadre de délimitation.
- Vue des résultatsLes données structurées converties peuvent être visualisées via l'API ou l'interface Web, avec prise en charge des formats HTML et Markdown.
Chunkr fournit une documentation détaillée et des exemples de code pour aider les utilisateurs à démarrer rapidement et à s'intégrer dans les systèmes existants. Les développeurs et les utilisateurs professionnels peuvent utiliser Chunkr pour traiter et convertir efficacement des documents et accroître leur productivité.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...