NV Ingest: análisis sintáctico de documentos de formato complejo y extracción de datos multimodales en metadatos y texto

Introducción general

NV Ingest (NVIDIA Ingest) es un conjunto de microservicios de acceso anticipado diseñados para analizar cientos de miles de complejos y desordenados documentos PDF no estructurados y otros documentos empresariales. NVIDIA Ingest permite analizar documentos PDF, Word y PowerPoint utilizando los microservicios NIM de NVIDIA para encontrar, contextualizar y extraer texto, tablas, gráficos e imágenes para su uso en aplicaciones generativas posteriores. El servicio paraleliza el procesamiento, divide los documentos en páginas, categoriza el contenido (por ejemplo, tablas, gráficos, imágenes, texto) y lo extrae en esquemas JSON bien definidos utilizando el reconocimiento óptico de caracteres (OCR).NVIDIA Ingest también gestiona opcionalmente el cálculo del contenido incrustado y lo almacena en la base de datos vectorial, Milvus.

NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

Archivo de ayuda: https://docs.nvidia.com/nv-ingest/

 

Lista de funciones

  • Soporte para el análisis sintáctico de documentos PDF, Word y PowerPoint
  • Encuentra, contextualiza y extrae texto, tablas, gráficos e imágenes con los microservicios NVIDIA NIM.
  • Paralelización de documentos, división en páginas y categorización de contenidos
  • Extracción de contenidos mediante OCR y conversión a esquema JSON
  • Admite métodos de extracción de varios tipos de documentos para equilibrar el rendimiento y la precisión.
  • Admite diversas operaciones de preprocesamiento y postprocesamiento, como la división y fragmentación de texto, la conversión y el filtrado, la generación de incrustaciones y la descarga de imágenes en el almacenamiento.
  • Opcionalmente gestiona el cómputo y almacenamiento del contenido incrustado en la base de datos vectorial Milvus

 

Utilizar la ayuda

Proceso de instalación

  1. Clona el repositorio NVIDIA Ingest:
   git clone https://github.com/NVIDIA/nv-ingest.git
  1. Vaya al catálogo de proyectos:
   cd nv-ingest
  1. Instalar dependencias:
   pip install -r requirements.txt
  1. Configurar variables de entorno:
   source setup_env.sh
  1. Inicie el servicio:
   docker-compose up

Proceso de utilización

  1. Enviar una tarea de análisis de documentos::
    • Envíe descripciones de tareas JSON que contengan cargas de documentos y tareas de análisis sintáctico a través de la API.
    • Ejemplo de descripción de puesto JSON:
     {
    "document_payload": "base64_encoded_document",
    "ingestion_tasks": ["parse_text", "extract_metadata"]
    }
    
  2. Recuperar resultados de análisis::
    • Recuperar los resultados del trabajo a través de la API, lo que resulta en un diccionario JSON que contiene metadatos de objetos extraídos, anotaciones de procesamiento y datos de tiempo/seguimiento.
    • Ejemplos de llamadas a la API:
     curl -X GET "http://localhost:5000/api/results/{job_id}"
    
  3. Tipos de documentos y métodos de extracción admitidos::
    • Documentos PDF: compatibilidad con la extracción a través de pdfium, Unstructured.io y Adobe Content Extraction Services.
    • Documentos de Word: admite la extracción a través de la API de Microsoft Office.
    • Documentos PowerPoint: se admite la extracción a través de la API de Microsoft Office.
    • Imágenes: Se admite la extracción mediante OCR.
  4. Operaciones previas y posteriores al tratamiento::
    • División y fragmentación de textos: división de textos largos en trozos más pequeños para procesarlos y analizarlos mejor.
    • Conversión y filtrado: Convierte y filtra el texto extraído para mejorar la calidad de los datos.
    • Generación de incrustaciones: calcula las incrustaciones del contenido extraído para su almacenamiento y recuperación en una base de datos vectorial.
    • Descarga de imágenes en almacenamiento: descarga las imágenes extraídas en un almacenamiento externo para su posterior procesamiento y análisis.

Procedimiento de funcionamiento detallado

  1. Enviar una tarea de análisis de documentos::
    • Envíe descripciones de tareas JSON que contengan cargas de documentos y tareas de análisis sintáctico a través de la API.
    • Ejemplo de descripción de puesto JSON:
     {
    "document_payload": "base64_encoded_document",
    "ingestion_tasks": ["parse_text", "extract_metadata"]
    }
    
  2. Recuperar resultados de análisis::
    • Recuperar los resultados del trabajo a través de la API, lo que resulta en un diccionario JSON que contiene metadatos de objetos extraídos, anotaciones de procesamiento y datos de tiempo/seguimiento.
    • Ejemplos de llamadas a la API:
     curl -X GET "http://localhost:5000/api/results/{job_id}"
    
  3. Tipos de documentos y métodos de extracción admitidos::
    • Documentos PDF: compatibilidad con la extracción a través de pdfium, Unstructured.io y Adobe Content Extraction Services.
    • Documentos de Word: admite la extracción a través de la API de Microsoft Office.
    • Documentos PowerPoint: se admite la extracción a través de la API de Microsoft Office.
    • Imágenes: Se admite la extracción mediante OCR.
  4. Operaciones previas y posteriores al tratamiento::
    • División y fragmentación de textos: división de textos largos en trozos más pequeños para procesarlos y analizarlos mejor.
    • Conversión y filtrado: Convierte y filtra el texto extraído para mejorar la calidad de los datos.
    • Generación de incrustaciones: calcula las incrustaciones del contenido extraído para su almacenamiento y recuperación en una base de datos vectorial.
    • Descarga de imágenes en almacenamiento: descarga las imágenes extraídas en un almacenamiento externo para su posterior procesamiento y análisis.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...