API извлечения текста (text-extract-api): визуальное извлечение текстовой информации, инструмент для извлечения анонимных PDF-файлов

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

Общее введение

API извлечения текста (text-extract-api) - это мощный инструмент, предназначенный для извлечения и разбора содержимого из документов различных форматов (например, PDF, Word, PPTX и т. д.). API использует современную технологию оптического распознавания символов (OCR) и модели, поддерживаемые Ollama, для преобразования любого документа или изображения в структурированный формат JSON или Markdown. Среди ключевых особенностей - высокоточное извлечение текста, удаление персонально идентифицируемой информации (PII), поддержка нескольких стратегий хранения и распределенная обработка задач. API для извлечения текста построен на основе FastAPI и использует Celery для асинхронной обработки задач и Redis для кэширования результатов OCR, чтобы обеспечить эффективную и надежную обработку документов.

pdf-extract-api - это API для извлечения и разбора документов, который поддерживает анонимизацию документов с помощью современных технологий OCR и моделей, поддерживаемых Ollama. Он может преобразовать любой документ или изображение в структурированный JSON или Markdown, поддерживает высокоточное извлечение табличных данных, чисел и математических формул. Построенный на FastAPI, API использует Celery для асинхронной обработки задач и Redis для кэширования результатов OCR, обеспечивая эффективную и надежную обработку документов.

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

Список функций

Высокоточный OCR: используйте PyTorch, Marker, Llama3.2-vision и другие стратегии OCR для высокоточного извлечения текста.
Конвертация документов: поддержка PDF, Word, PPTX и других документов в формат Markdown или JSON.
Удалить PII: автоматически определяет и удаляет из документов информацию, позволяющую идентифицировать личность.
Распределенная обработка: используйте Celery для распределенной обработки задач, чтобы повысить эффективность обработки.
Механизм кэширования: используйте Redis для кэширования результатов OCR, чтобы сократить время повторной обработки.
Стратегия мультихранилища: поддержка локальной файловой системы, Google Drive и других методов хранения.
Инструменты CLI: Предоставьте инструменты командной строки, чтобы облегчить пользователям отправку заданий и обработку результатов.

Использование помощи

Процесс установки

Загрузите и установите Ollama.
Загрузите и установите Docker.
Клонируйте репозиторий text-extract-api:

   git clone https://github.com/CatchTheTornado/text-extract-api.git

Перейдите в каталог проекта и запустите контейнер Docker:

   cd text-extract-api
docker-compose up

Использование

преобразование документов

Загрузите документы для преобразования в указанную директорию.
Используйте инструмент CLI для отправки заданий на преобразование:

   python client/cli.py ocr_upload --file examples/example.pdf --prompt_file examples/example-to-json-prompt.txt

Результат преобразования будет сохранен в формате JSON или Markdown в указанной директории.

Удаление PII

Загрузите документ, содержащий PII.
Используйте инструмент CLI для отправки заданий по удалению PII:

   python client/cli.py ocr_upload --file examples/example-pii.pdf --prompt_file examples/example-remove-pii.txt

Из обработанных документов будет удалена вся информация, позволяющая идентифицировать личность.

Подробный порядок работы функций

Высокоточное распознавание текста: Настраивая различные стратегии OCR (например, Marker, Llama3.2-vision и т. д.), можно добиться высокоточного извлечения текста для различных документов. Пользователи могут выбрать наиболее подходящую стратегию OCR в зависимости от типа документа.
преобразование документов: Поддержка PDF, Word, PPTX и других форматов Документ будет преобразован в формат Markdown или JSON, чтобы облегчить последующую обработку и анализ данных.
Удаление PII: Автоматически определяет и удаляет персональную информацию из документов, чтобы обеспечить конфиденциальность и безопасность данных.
распределённая обработка: Распределенная обработка задач с использованием Celery для поддержки крупномасштабных задач обработки документов и повышения эффективности обработки.
механизм кэширования: Используйте Redis для кэширования результатов OCR, чтобы сократить время повторной обработки и улучшить время отклика системы.
Политика многоместного хранения: Поддерживаются различные способы хранения данных, такие как локальная файловая система, Google Диск и т. д. Пользователи могут выбрать подходящую стратегию хранения в соответствии со своими потребностями.
Инструменты CLIДля удобства пользователей предусмотрены инструменты командной строки, позволяющие отправлять задания и обрабатывать результаты с помощью простых команд.