NV Ingest: análisis sintáctico de documentos de formato complejo y extracción de datos multimodales en metadatos y texto

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

63.7K 00

Introducción general

NV Ingest (NVIDIA Ingest) es un conjunto de microservicios de acceso anticipado diseñados para analizar cientos de miles de complejos y desordenados documentos PDF no estructurados y otros documentos empresariales. NVIDIA Ingest permite analizar documentos PDF, Word y PowerPoint utilizando los microservicios NIM de NVIDIA para encontrar, contextualizar y extraer texto, tablas, gráficos e imágenes para su uso en aplicaciones generativas posteriores. El servicio paraleliza el procesamiento, divide los documentos en páginas, categoriza el contenido (por ejemplo, tablas, gráficos, imágenes, texto) y lo extrae en esquemas JSON bien definidos utilizando el reconocimiento óptico de caracteres (OCR).NVIDIA Ingest también gestiona opcionalmente el cálculo del contenido incrustado y lo almacena en la base de datos vectorial, Milvus.

Archivo de ayuda: https://docs.nvidia.com/nv-ingest/

Lista de funciones

Soporte para el análisis sintáctico de documentos PDF, Word y PowerPoint
Encuentra, contextualiza y extrae texto, tablas, gráficos e imágenes con los microservicios NVIDIA NIM.
Paralelización de documentos, división en páginas y categorización de contenidos
Extracción de contenidos mediante OCR y conversión a esquema JSON
Admite métodos de extracción de varios tipos de documentos para equilibrar el rendimiento y la precisión.
Admite diversas operaciones de preprocesamiento y postprocesamiento, como la división y fragmentación de texto, la conversión y el filtrado, la generación de incrustaciones y la descarga de imágenes en el almacenamiento.
Opcionalmente gestiona el cómputo y almacenamiento del contenido incrustado en la base de datos vectorial Milvus

Utilizar la ayuda

Proceso de instalación

Clona el repositorio NVIDIA Ingest:

   git clone https://github.com/NVIDIA/nv-ingest.git

Vaya al catálogo de proyectos:

   cd nv-ingest

Instalar dependencias:

   pip install -r requirements.txt

Configurar variables de entorno:

   source setup_env.sh

Inicie el servicio:

   docker-compose up

Proceso de utilización

Enviar una tarea de análisis de documentos::
- Envíe descripciones de tareas JSON que contengan cargas de documentos y tareas de análisis sintáctico a través de la API.
- Ejemplo de descripción de puesto JSON:
```
 {
"document_payload": "base64_encoded_document",
"ingestion_tasks": ["parse_text", "extract_metadata"]
}
```
Recuperar resultados de análisis::
- Recuperar los resultados del trabajo a través de la API, lo que resulta en un diccionario JSON que contiene metadatos de objetos extraídos, anotaciones de procesamiento y datos de tiempo/seguimiento.
- Ejemplos de llamadas a la API:
```
 curl -X GET "http://localhost:5000/api/results/{job_id}"
```
Tipos de documentos y métodos de extracción admitidos::
- Documentos PDF: compatibilidad con la extracción a través de pdfium, Unstructured.io y Adobe Content Extraction Services.
- Documentos de Word: admite la extracción a través de la API de Microsoft Office.
- Documentos PowerPoint: se admite la extracción a través de la API de Microsoft Office.
- Imágenes: Se admite la extracción mediante OCR.
Operaciones previas y posteriores al tratamiento::
- División y fragmentación de textos: división de textos largos en trozos más pequeños para procesarlos y analizarlos mejor.
- Conversión y filtrado: Convierte y filtra el texto extraído para mejorar la calidad de los datos.
- Generación de incrustaciones: calcula las incrustaciones del contenido extraído para su almacenamiento y recuperación en una base de datos vectorial.
- Descarga de imágenes en almacenamiento: descarga las imágenes extraídas en un almacenamiento externo para su posterior procesamiento y análisis.

Procedimiento de funcionamiento detallado

Enviar una tarea de análisis de documentos::
- Envíe descripciones de tareas JSON que contengan cargas de documentos y tareas de análisis sintáctico a través de la API.
- Ejemplo de descripción de puesto JSON:
```
 {
"document_payload": "base64_encoded_document",
"ingestion_tasks": ["parse_text", "extract_metadata"]
}
```
Recuperar resultados de análisis::
- Recuperar los resultados del trabajo a través de la API, lo que resulta en un diccionario JSON que contiene metadatos de objetos extraídos, anotaciones de procesamiento y datos de tiempo/seguimiento.
- Ejemplos de llamadas a la API:
```
 curl -X GET "http://localhost:5000/api/results/{job_id}"
```
Tipos de documentos y métodos de extracción admitidos::
- Documentos PDF: compatibilidad con la extracción a través de pdfium, Unstructured.io y Adobe Content Extraction Services.
- Documentos de Word: admite la extracción a través de la API de Microsoft Office.
- Documentos PowerPoint: se admite la extracción a través de la API de Microsoft Office.
- Imágenes: Se admite la extracción mediante OCR.
Operaciones previas y posteriores al tratamiento::
- División y fragmentación de textos: división de textos largos en trozos más pequeños para procesarlos y analizarlos mejor.
- Conversión y filtrado: Convierte y filtra el texto extraído para mejorar la calidad de los datos.
- Generación de incrustaciones: calcula las incrustaciones del contenido extraído para su almacenamiento y recuperación en una base de datos vectorial.
- Descarga de imágenes en almacenamiento: descarga las imágenes extraídas en un almacenamiento externo para su posterior procesamiento y análisis.