NV Ingest: разбор документов сложного формата, извлечение мультимодальных данных в метаданные и текст
Общее введение
NV Ingest (NVIDIA Ingest) - это набор микросервисов раннего доступа, предназначенных для разбора сотен тысяч сложных неструктурированных PDF и других корпоративных документов. Он преобразует эти документы в метаданные и текст для встраивания в поисковые системы.NVIDIA Ingest поддерживает разбор документов PDF, Word и PowerPoint, используя микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в последующих генеративных приложениях. Сервис распараллеливает обработку, разбивает документы на страницы, классифицирует контент (например, таблицы, диаграммы, изображения, текст) и извлекает его в четко определенные JSON схемы с помощью оптического распознавания символов (OCR). NVIDIA Ingest также опционально управляет вычислением встроенного контента и хранит его в векторной базе данных Milvus.

Файл справки: https://docs.nvidia.com/nv-ingest/
Список функций
- Поддержка разбора документов PDF, Word и PowerPoint
- Поиск, контекстуализация и извлечение текста, таблиц, графиков и изображений с помощью микросервисов NVIDIA NIM
- Распараллеливание документов, разбивка их на страницы и распределение содержимого по категориям
- Извлечение содержимого с помощью OCR и преобразование в схему JSON
- Поддерживает методы извлечения документов различных типов, что позволяет сбалансировать производительность и точность.
- Поддерживает различные операции предварительной и последующей обработки, включая разбивку и измельчение текста, преобразование и фильтрацию, создание встроенных элементов и выгрузку изображений в хранилище.
- Опционально управляет вычислением и хранением встроенного контента в векторной базе данных Milvus
Использование помощи
Процесс установки
- Клонируйте репозиторий NVIDIA Ingest:
git clone https://github.com/NVIDIA/nv-ingest.git
- Перейдите в каталог проектов:
cd nv-ingest
- Установите зависимости:
pip install -r requirements.txt
- Настройте переменные окружения:
source setup_env.sh
- Начните обслуживание:
docker-compose up
Процесс использования
- Отправка заданий по разбору документов::
- Отправляйте описания заданий в формате JSON, содержащие задания по загрузке и разбору документов, через API.
- Пример описания работы в формате JSON:
{ "document_payload": "base64_encoded_document", "ingestion_tasks": ["parse_text", "extract_metadata"] }
- Получение результатов разбора::
- Получите результаты задания через API, в результате чего будет создан JSON-словарь, содержащий метаданные извлеченных объектов, аннотации к обработке и данные о времени/отслеживании.
- Примеры вызовов API:
curl -X GET "http://localhost:5000/api/results/{job_id}"
- Поддерживаемые типы документов и методы извлечения::
- Документы PDF: поддержка извлечения через pdfium, Unstructured.io и Adobe Content Extraction Services.
- Документы Word: поддержка извлечения через Microsoft Office API.
- Документы PowerPoint: поддерживается извлечение через Microsoft Office API.
- Изображения: поддерживается извлечение с помощью OCR.
- Операции предварительной и последующей обработки::
- Разбиение текста на фрагменты: разбиение длинного текста на более мелкие фрагменты для лучшей обработки и анализа.
- Преобразование и фильтрация: преобразование и фильтрация извлеченного текста для повышения качества данных.
- Генерация вкраплений: вычисляет вкрапления извлеченного контента для хранения и поиска в векторной базе данных.
- Выгрузка изображений в хранилище: выгрузка извлеченных изображений во внешнее хранилище для дальнейшей обработки и анализа.
Подробная процедура работы
- Отправка заданий по разбору документов::
- Отправляйте описания заданий в формате JSON, содержащие задания по загрузке и разбору документов, через API.
- Пример описания работы в формате JSON:
{ "document_payload": "base64_encoded_document", "ingestion_tasks": ["parse_text", "extract_metadata"] }
- Получение результатов разбора::
- Получите результаты задания через API, в результате чего будет создан JSON-словарь, содержащий метаданные извлеченных объектов, аннотации к обработке и данные о времени/отслеживании.
- Примеры вызовов API:
curl -X GET "http://localhost:5000/api/results/{job_id}"
- Поддерживаемые типы документов и методы извлечения::
- Документы PDF: поддержка извлечения через pdfium, Unstructured.io и Adobe Content Extraction Services.
- Документы Word: поддержка извлечения через Microsoft Office API.
- Документы PowerPoint: поддерживается извлечение через Microsoft Office API.
- Изображения: поддерживается извлечение с помощью OCR.
- Операции предварительной и последующей обработки::
- Разбиение текста на фрагменты: разбиение длинного текста на более мелкие фрагменты для лучшей обработки и анализа.
- Преобразование и фильтрация: преобразование и фильтрация извлеченного текста для повышения качества данных.
- Генерация вкраплений: вычисляет вкрапления извлеченного контента для хранения и поиска в векторной базе данных.
- Выгрузка изображений в хранилище: выгрузка извлеченных изображений во внешнее хранилище для дальнейшей обработки и анализа.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...