NV Ingest : analyse de documents au format complexe, extraction de données multimodales en métadonnées et en texte
Introduction générale
NV Ingest (NVIDIA Ingest) est une suite de microservices en accès anticipé conçue pour analyser des centaines de milliers de documents PDF complexes et désordonnés et d'autres documents d'entreprise. Elle transforme ces documents en métadonnées et en texte pour les intégrer dans des systèmes de recherche. NVIDIA Ingest prend en charge l'analyse des documents PDF, Word et PowerPoint, en utilisant les microservices NVIDIA NIM pour trouver, contextualiser et extraire du texte, des tableaux, des graphiques et des images qui seront utilisés par des applications génératives en aval. Le service parallélise le traitement, divise les documents en pages, catégorise le contenu (par exemple, tableaux, graphiques, images, texte) et l'extrait dans des schémas JSON bien définis à l'aide de la reconnaissance optique de caractères (OCR).NVIDIA Ingest gère également en option le calcul du contenu intégré et le stocke dans la base de données vectorielle Milvus.

Fichier d'aide : https://docs.nvidia.com/nv-ingest/
Liste des fonctions
- Prise en charge de l'analyse des documents PDF, Word et PowerPoint
- Recherche, contextualisation et extraction de texte, de tableaux, de graphiques et d'images avec les microservices NVIDIA NIM
- Paralléliser les documents, les diviser en pages et classer le contenu par catégories
- Extraction de contenu par OCR et conversion en schéma JSON
- Prise en charge des méthodes d'extraction pour plusieurs types de documents afin d'équilibrer le débit et la précision.
- Prise en charge de toute une série d'opérations de prétraitement et de post-traitement, notamment le découpage et le découpage en morceaux du texte, la conversion et le filtrage, la génération d'images intégrées et le transfert d'images vers le stockage.
- gère éventuellement le calcul et le stockage du contenu incorporé dans la base de données vectorielles Milvus
Utiliser l'aide
Processus d'installation
- Clonez le dépôt NVIDIA Ingest :
git clone https://github.com/NVIDIA/nv-ingest.git
- Accédez au catalogue de projets :
cd nv-ingest
- Installer les dépendances :
pip install -r requirements.txt
- Configurer les variables d'environnement :
source setup_env.sh
- Démarrer le service :
docker-compose up
Processus d'utilisation
- Soumission des tâches d'analyse de documents: :
- Soumettre des descriptions de tâches JSON contenant des chargements de documents et des tâches d'analyse via l'API.
- Exemple de description de poste en JSON :
{ "document_payload": "base64_encoded_document", "ingestion_tasks": ["parse_text", "extract_metadata"] }
- Récupérer les résultats de l'analyse: :
- Récupérer les résultats du travail via l'API, ce qui donne un dictionnaire JSON contenant les métadonnées de l'objet extrait, les annotations de traitement et les données de temps et de suivi.
- Exemples d'appels API :
curl -X GET "http://localhost:5000/api/results/{job_id}"
- Types de documents et méthodes d'extraction pris en charge: :
- Documents PDF : prise en charge de l'extraction via pdfium, Unstructured.io et Adobe Content Extraction Services.
- Documents Word : prise en charge de l'extraction via l'API de Microsoft Office.
- Documents PowerPoint : l'extraction via l'API de Microsoft Office est prise en charge.
- Images : l'extraction par OCR est possible.
- Opérations de pré- et post-traitement: :
- Fractionnement et découpage du texte : fractionnement d'un texte long en morceaux plus petits afin d'en améliorer le traitement et l'analyse.
- Conversion et filtrage : convertir et filtrer le texte extrait pour améliorer la qualité des données.
- Génération d'encastrement : calcule les encastrements du contenu extrait pour le stockage et la recherche dans une base de données vectorielle.
- Déchargement des images vers le stockage : décharge les images extraites vers un stockage externe en vue d'un traitement et d'une analyse ultérieurs.
Procédure d'utilisation détaillée
- Soumission des tâches d'analyse de documents: :
- Soumettre des descriptions de tâches JSON contenant des chargements de documents et des tâches d'analyse via l'API.
- Exemple de description de poste en JSON :
{ "document_payload": "base64_encoded_document", "ingestion_tasks": ["parse_text", "extract_metadata"] }
- Récupérer les résultats de l'analyse: :
- Récupérer les résultats du travail via l'API, ce qui donne un dictionnaire JSON contenant les métadonnées de l'objet extrait, les annotations de traitement et les données de temps et de suivi.
- Exemples d'appels API :
curl -X GET "http://localhost:5000/api/results/{job_id}"
- Types de documents et méthodes d'extraction pris en charge: :
- Documents PDF : prise en charge de l'extraction via pdfium, Unstructured.io et Adobe Content Extraction Services.
- Documents Word : prise en charge de l'extraction via l'API de Microsoft Office.
- Documents PowerPoint : l'extraction via l'API de Microsoft Office est prise en charge.
- Images : l'extraction par OCR est possible.
- Opérations de pré- et post-traitement: :
- Fractionnement et découpage du texte : fractionnement d'un texte long en morceaux plus petits afin d'en améliorer le traitement et l'analyse.
- Conversion et filtrage : convertir et filtrer le texte extrait pour améliorer la qualité des données.
- Génération d'encastrement : calcule les encastrements du contenu extrait pour le stockage et la recherche dans une base de données vectorielle.
- Déchargement des images vers le stockage : décharge les images extraites vers un stockage externe en vue d'un traitement et d'une analyse ultérieurs.
© déclaration de droits d'auteur
文章版权归 Cercle de partage de l'IA 所有,未经允许请勿转载。
Articles connexes
Pas de commentaires...