NV Ingest: análisis sintáctico de documentos de formato complejo y extracción de datos multimodales en metadatos y texto
Últimos recursos sobre IAPublicado hace 7 meses Círculo de intercambio de inteligencia artificial 2.4K 00
Introducción general
NV Ingest (NVIDIA Ingest) es un conjunto de microservicios de acceso anticipado diseñados para analizar cientos de miles de complejos y desordenados documentos PDF no estructurados y otros documentos empresariales. NVIDIA Ingest permite analizar documentos PDF, Word y PowerPoint utilizando los microservicios NIM de NVIDIA para encontrar, contextualizar y extraer texto, tablas, gráficos e imágenes para su uso en aplicaciones generativas posteriores. El servicio paraleliza el procesamiento, divide los documentos en páginas, categoriza el contenido (por ejemplo, tablas, gráficos, imágenes, texto) y lo extrae en esquemas JSON bien definidos utilizando el reconocimiento óptico de caracteres (OCR).NVIDIA Ingest también gestiona opcionalmente el cálculo del contenido incrustado y lo almacena en la base de datos vectorial, Milvus.

Archivo de ayuda: https://docs.nvidia.com/nv-ingest/
Lista de funciones
- Soporte para el análisis sintáctico de documentos PDF, Word y PowerPoint
- Encuentra, contextualiza y extrae texto, tablas, gráficos e imágenes con los microservicios NVIDIA NIM.
- Paralelización de documentos, división en páginas y categorización de contenidos
- Extracción de contenidos mediante OCR y conversión a esquema JSON
- Admite métodos de extracción de varios tipos de documentos para equilibrar el rendimiento y la precisión.
- Admite diversas operaciones de preprocesamiento y postprocesamiento, como la división y fragmentación de texto, la conversión y el filtrado, la generación de incrustaciones y la descarga de imágenes en el almacenamiento.
- Opcionalmente gestiona el cómputo y almacenamiento del contenido incrustado en la base de datos vectorial Milvus
Utilizar la ayuda
Proceso de instalación
- Clona el repositorio NVIDIA Ingest:
git clone https://github.com/NVIDIA/nv-ingest.git
- Vaya al catálogo de proyectos:
cd nv-ingest
- Instalar dependencias:
pip install -r requirements.txt
- Configurar variables de entorno:
source setup_env.sh
- Inicie el servicio:
docker-compose up
Proceso de utilización
- Enviar una tarea de análisis de documentos::
- Envíe descripciones de tareas JSON que contengan cargas de documentos y tareas de análisis sintáctico a través de la API.
- Ejemplo de descripción de puesto JSON:
{ "document_payload": "base64_encoded_document", "ingestion_tasks": ["parse_text", "extract_metadata"] }
- Recuperar resultados de análisis::
- Recuperar los resultados del trabajo a través de la API, lo que resulta en un diccionario JSON que contiene metadatos de objetos extraídos, anotaciones de procesamiento y datos de tiempo/seguimiento.
- Ejemplos de llamadas a la API:
curl -X GET "http://localhost:5000/api/results/{job_id}"
- Tipos de documentos y métodos de extracción admitidos::
- Documentos PDF: compatibilidad con la extracción a través de pdfium, Unstructured.io y Adobe Content Extraction Services.
- Documentos de Word: admite la extracción a través de la API de Microsoft Office.
- Documentos PowerPoint: se admite la extracción a través de la API de Microsoft Office.
- Imágenes: Se admite la extracción mediante OCR.
- Operaciones previas y posteriores al tratamiento::
- División y fragmentación de textos: división de textos largos en trozos más pequeños para procesarlos y analizarlos mejor.
- Conversión y filtrado: Convierte y filtra el texto extraído para mejorar la calidad de los datos.
- Generación de incrustaciones: calcula las incrustaciones del contenido extraído para su almacenamiento y recuperación en una base de datos vectorial.
- Descarga de imágenes en almacenamiento: descarga las imágenes extraídas en un almacenamiento externo para su posterior procesamiento y análisis.
Procedimiento de funcionamiento detallado
- Enviar una tarea de análisis de documentos::
- Envíe descripciones de tareas JSON que contengan cargas de documentos y tareas de análisis sintáctico a través de la API.
- Ejemplo de descripción de puesto JSON:
{ "document_payload": "base64_encoded_document", "ingestion_tasks": ["parse_text", "extract_metadata"] }
- Recuperar resultados de análisis::
- Recuperar los resultados del trabajo a través de la API, lo que resulta en un diccionario JSON que contiene metadatos de objetos extraídos, anotaciones de procesamiento y datos de tiempo/seguimiento.
- Ejemplos de llamadas a la API:
curl -X GET "http://localhost:5000/api/results/{job_id}"
- Tipos de documentos y métodos de extracción admitidos::
- Documentos PDF: compatibilidad con la extracción a través de pdfium, Unstructured.io y Adobe Content Extraction Services.
- Documentos de Word: admite la extracción a través de la API de Microsoft Office.
- Documentos PowerPoint: se admite la extracción a través de la API de Microsoft Office.
- Imágenes: Se admite la extracción mediante OCR.
- Operaciones previas y posteriores al tratamiento::
- División y fragmentación de textos: división de textos largos en trozos más pequeños para procesarlos y analizarlos mejor.
- Conversión y filtrado: Convierte y filtra el texto extraído para mejorar la calidad de los datos.
- Generación de incrustaciones: calcula las incrustaciones del contenido extraído para su almacenamiento y recuperación en una base de datos vectorial.
- Descarga de imágenes en almacenamiento: descarga las imágenes extraídas en un almacenamiento externo para su posterior procesamiento y análisis.
© declaración de copyright
文章版权归 Círculo de intercambio de inteligencia artificial 所有,未经允许请勿转载。
Artículos relacionados
Sin comentarios...