NV Ingest : analyse de documents au format complexe, extraction de données multimodales en métadonnées et en texte

Dernières ressources sur l'IAPosté il y a 8 mois Cercle de partage de l'IA

21.8K 00

Introduction générale

NV Ingest (NVIDIA Ingest) est une suite de microservices en accès anticipé conçue pour analyser des centaines de milliers de documents PDF complexes et désordonnés et d'autres documents d'entreprise. Elle transforme ces documents en métadonnées et en texte pour les intégrer dans des systèmes de recherche. NVIDIA Ingest prend en charge l'analyse des documents PDF, Word et PowerPoint, en utilisant les microservices NVIDIA NIM pour trouver, contextualiser et extraire du texte, des tableaux, des graphiques et des images qui seront utilisés par des applications génératives en aval. Le service parallélise le traitement, divise les documents en pages, catégorise le contenu (par exemple, tableaux, graphiques, images, texte) et l'extrait dans des schémas JSON bien définis à l'aide de la reconnaissance optique de caractères (OCR).NVIDIA Ingest gère également en option le calcul du contenu intégré et le stocke dans la base de données vectorielle Milvus.

Fichier d'aide : https://docs.nvidia.com/nv-ingest/

Liste des fonctions

Prise en charge de l'analyse des documents PDF, Word et PowerPoint
Recherche, contextualisation et extraction de texte, de tableaux, de graphiques et d'images avec les microservices NVIDIA NIM
Paralléliser les documents, les diviser en pages et classer le contenu par catégories
Extraction de contenu par OCR et conversion en schéma JSON
Prise en charge des méthodes d'extraction pour plusieurs types de documents afin d'équilibrer le débit et la précision.
Prise en charge de toute une série d'opérations de prétraitement et de post-traitement, notamment le découpage et le découpage en morceaux du texte, la conversion et le filtrage, la génération d'images intégrées et le transfert d'images vers le stockage.
gère éventuellement le calcul et le stockage du contenu incorporé dans la base de données vectorielles Milvus

Utiliser l'aide

Processus d'installation

Clonez le dépôt NVIDIA Ingest :

   git clone https://github.com/NVIDIA/nv-ingest.git

Accédez au catalogue de projets :

   cd nv-ingest

Installer les dépendances :

   pip install -r requirements.txt

Configurer les variables d'environnement :

   source setup_env.sh

Démarrer le service :

   docker-compose up

Processus d'utilisation

Soumission des tâches d'analyse de documents: :
- Soumettre des descriptions de tâches JSON contenant des chargements de documents et des tâches d'analyse via l'API.
- Exemple de description de poste en JSON :
```
 {
"document_payload": "base64_encoded_document",
"ingestion_tasks": ["parse_text", "extract_metadata"]
}
```
Récupérer les résultats de l'analyse: :
- Récupérer les résultats du travail via l'API, ce qui donne un dictionnaire JSON contenant les métadonnées de l'objet extrait, les annotations de traitement et les données de temps et de suivi.
- Exemples d'appels API :
```
 curl -X GET "http://localhost:5000/api/results/{job_id}"
```
Types de documents et méthodes d'extraction pris en charge: :
- Documents PDF : prise en charge de l'extraction via pdfium, Unstructured.io et Adobe Content Extraction Services.
- Documents Word : prise en charge de l'extraction via l'API de Microsoft Office.
- Documents PowerPoint : l'extraction via l'API de Microsoft Office est prise en charge.
- Images : l'extraction par OCR est possible.
Opérations de pré- et post-traitement: :
- Fractionnement et découpage du texte : fractionnement d'un texte long en morceaux plus petits afin d'en améliorer le traitement et l'analyse.
- Conversion et filtrage : convertir et filtrer le texte extrait pour améliorer la qualité des données.
- Génération d'encastrement : calcule les encastrements du contenu extrait pour le stockage et la recherche dans une base de données vectorielle.
- Déchargement des images vers le stockage : décharge les images extraites vers un stockage externe en vue d'un traitement et d'une analyse ultérieurs.

Procédure d'utilisation détaillée

Soumission des tâches d'analyse de documents: :
- Soumettre des descriptions de tâches JSON contenant des chargements de documents et des tâches d'analyse via l'API.
- Exemple de description de poste en JSON :
```
 {
"document_payload": "base64_encoded_document",
"ingestion_tasks": ["parse_text", "extract_metadata"]
}
```
Récupérer les résultats de l'analyse: :
- Récupérer les résultats du travail via l'API, ce qui donne un dictionnaire JSON contenant les métadonnées de l'objet extrait, les annotations de traitement et les données de temps et de suivi.
- Exemples d'appels API :
```
 curl -X GET "http://localhost:5000/api/results/{job_id}"
```
Types de documents et méthodes d'extraction pris en charge: :
- Documents PDF : prise en charge de l'extraction via pdfium, Unstructured.io et Adobe Content Extraction Services.
- Documents Word : prise en charge de l'extraction via l'API de Microsoft Office.
- Documents PowerPoint : l'extraction via l'API de Microsoft Office est prise en charge.
- Images : l'extraction par OCR est possible.
Opérations de pré- et post-traitement: :
- Fractionnement et découpage du texte : fractionnement d'un texte long en morceaux plus petits afin d'en améliorer le traitement et l'analyse.
- Conversion et filtrage : convertir et filtrer le texte extrait pour améliorer la qualité des données.
- Génération d'encastrement : calcule les encastrements du contenu extrait pour le stockage et la recherche dans une base de données vectorielle.
- Déchargement des images vers le stockage : décharge les images extraites vers un stockage externe en vue d'un traitement et d'une analyse ultérieurs.