NV Ingest: разбор документов сложного формата, извлечение мультимодальных данных в метаданные и текст

Общее введение

NV Ingest (NVIDIA Ingest) - это набор микросервисов раннего доступа, предназначенных для разбора сотен тысяч сложных неструктурированных PDF и других корпоративных документов. Он преобразует эти документы в метаданные и текст для встраивания в поисковые системы.NVIDIA Ingest поддерживает разбор документов PDF, Word и PowerPoint, используя микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в последующих генеративных приложениях. Сервис распараллеливает обработку, разбивает документы на страницы, классифицирует контент (например, таблицы, диаграммы, изображения, текст) и извлекает его в четко определенные JSON схемы с помощью оптического распознавания символов (OCR). NVIDIA Ingest также опционально управляет вычислением встроенного контента и хранит его в векторной базе данных Milvus.

NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

Файл справки: https://docs.nvidia.com/nv-ingest/

 

Список функций

  • Поддержка разбора документов PDF, Word и PowerPoint
  • Поиск, контекстуализация и извлечение текста, таблиц, графиков и изображений с помощью микросервисов NVIDIA NIM
  • Распараллеливание документов, разбивка их на страницы и распределение содержимого по категориям
  • Извлечение содержимого с помощью OCR и преобразование в схему JSON
  • Поддерживает методы извлечения документов различных типов, что позволяет сбалансировать производительность и точность.
  • Поддерживает различные операции предварительной и последующей обработки, включая разбивку и измельчение текста, преобразование и фильтрацию, создание встроенных элементов и выгрузку изображений в хранилище.
  • Опционально управляет вычислением и хранением встроенного контента в векторной базе данных Milvus

 

Использование помощи

Процесс установки

  1. Клонируйте репозиторий NVIDIA Ingest:
   git clone https://github.com/NVIDIA/nv-ingest.git
  1. Перейдите в каталог проектов:
   cd nv-ingest
  1. Установите зависимости:
   pip install -r requirements.txt
  1. Настройте переменные окружения:
   source setup_env.sh
  1. Начните обслуживание:
   docker-compose up

Процесс использования

  1. Отправка заданий по разбору документов::
    • Отправляйте описания заданий в формате JSON, содержащие задания по загрузке и разбору документов, через API.
    • Пример описания работы в формате JSON:
     {
    "document_payload": "base64_encoded_document",
    "ingestion_tasks": ["parse_text", "extract_metadata"]
    }
    
  2. Получение результатов разбора::
    • Получите результаты задания через API, в результате чего будет создан JSON-словарь, содержащий метаданные извлеченных объектов, аннотации к обработке и данные о времени/отслеживании.
    • Примеры вызовов API:
     curl -X GET "http://localhost:5000/api/results/{job_id}"
    
  3. Поддерживаемые типы документов и методы извлечения::
    • Документы PDF: поддержка извлечения через pdfium, Unstructured.io и Adobe Content Extraction Services.
    • Документы Word: поддержка извлечения через Microsoft Office API.
    • Документы PowerPoint: поддерживается извлечение через Microsoft Office API.
    • Изображения: поддерживается извлечение с помощью OCR.
  4. Операции предварительной и последующей обработки::
    • Разбиение текста на фрагменты: разбиение длинного текста на более мелкие фрагменты для лучшей обработки и анализа.
    • Преобразование и фильтрация: преобразование и фильтрация извлеченного текста для повышения качества данных.
    • Генерация вкраплений: вычисляет вкрапления извлеченного контента для хранения и поиска в векторной базе данных.
    • Выгрузка изображений в хранилище: выгрузка извлеченных изображений во внешнее хранилище для дальнейшей обработки и анализа.

Подробная процедура работы

  1. Отправка заданий по разбору документов::
    • Отправляйте описания заданий в формате JSON, содержащие задания по загрузке и разбору документов, через API.
    • Пример описания работы в формате JSON:
     {
    "document_payload": "base64_encoded_document",
    "ingestion_tasks": ["parse_text", "extract_metadata"]
    }
    
  2. Получение результатов разбора::
    • Получите результаты задания через API, в результате чего будет создан JSON-словарь, содержащий метаданные извлеченных объектов, аннотации к обработке и данные о времени/отслеживании.
    • Примеры вызовов API:
     curl -X GET "http://localhost:5000/api/results/{job_id}"
    
  3. Поддерживаемые типы документов и методы извлечения::
    • Документы PDF: поддержка извлечения через pdfium, Unstructured.io и Adobe Content Extraction Services.
    • Документы Word: поддержка извлечения через Microsoft Office API.
    • Документы PowerPoint: поддерживается извлечение через Microsoft Office API.
    • Изображения: поддерживается извлечение с помощью OCR.
  4. Операции предварительной и последующей обработки::
    • Разбиение текста на фрагменты: разбиение длинного текста на более мелкие фрагменты для лучшей обработки и анализа.
    • Преобразование и фильтрация: преобразование и фильтрация извлеченного текста для повышения качества данных.
    • Генерация вкраплений: вычисляет вкрапления извлеченного контента для хранения и поиска в векторной базе данных.
    • Выгрузка изображений в хранилище: выгрузка извлеченных изображений во внешнее хранилище для дальнейшей обработки и анализа.
© заявление об авторских правах

Похожие статьи

DocsGPT:文档聊天助手,从单个文档、网站来源获取可靠的答案,支持本地部署

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...