API извлечения текста (text-extract-api): визуальное извлечение текстовой информации, инструмент для извлечения анонимных PDF-файлов
Общее введение
API извлечения текста (text-extract-api) - это мощный инструмент, предназначенный для извлечения и разбора содержимого из документов различных форматов (например, PDF, Word, PPTX и т. д.). API использует современную технологию оптического распознавания символов (OCR) и модели, поддерживаемые Ollama, для преобразования любого документа или изображения в структурированный формат JSON или Markdown. Среди ключевых особенностей - высокоточное извлечение текста, удаление персонально идентифицируемой информации (PII), поддержка нескольких стратегий хранения и распределенная обработка задач. API для извлечения текста построен на основе FastAPI и использует Celery для асинхронной обработки задач и Redis для кэширования результатов OCR, чтобы обеспечить эффективную и надежную обработку документов.
pdf-extract-api - это API для извлечения и разбора документов, который поддерживает анонимизацию документов с помощью современных технологий OCR и моделей, поддерживаемых Ollama. Он может преобразовать любой документ или изображение в структурированный JSON или Markdown, поддерживает высокоточное извлечение табличных данных, чисел и математических формул. Построенный на FastAPI, API использует Celery для асинхронной обработки задач и Redis для кэширования результатов OCR, обеспечивая эффективную и надежную обработку документов.


Список функций
- Высокоточный OCR: используйте PyTorch, Marker, Llama3.2-vision и другие стратегии OCR для высокоточного извлечения текста.
- Конвертация документов: поддержка PDF, Word, PPTX и других документов в формат Markdown или JSON.
- Удалить PII: автоматически определяет и удаляет из документов информацию, позволяющую идентифицировать личность.
- Распределенная обработка: используйте Celery для распределенной обработки задач, чтобы повысить эффективность обработки.
- Механизм кэширования: используйте Redis для кэширования результатов OCR, чтобы сократить время повторной обработки.
- Стратегия мультихранилища: поддержка локальной файловой системы, Google Drive и других методов хранения.
- Инструменты CLI: Предоставьте инструменты командной строки, чтобы облегчить пользователям отправку заданий и обработку результатов.
Использование помощи
Процесс установки
- Загрузите и установите Ollama.
- Загрузите и установите Docker.
- Клонируйте репозиторий text-extract-api:
git clone https://github.com/CatchTheTornado/text-extract-api.git
- Перейдите в каталог проекта и запустите контейнер Docker:
cd text-extract-api
docker-compose up
Использование
преобразование документов
- Загрузите документы для преобразования в указанную директорию.
- Используйте инструмент CLI для отправки заданий на преобразование:
python client/cli.py ocr_upload --file examples/example.pdf --prompt_file examples/example-to-json-prompt.txt
- Результат преобразования будет сохранен в формате JSON или Markdown в указанной директории.
Удаление PII
- Загрузите документ, содержащий PII.
- Используйте инструмент CLI для отправки заданий по удалению PII:
python client/cli.py ocr_upload --file examples/example-pii.pdf --prompt_file examples/example-remove-pii.txt
- Из обработанных документов будет удалена вся информация, позволяющая идентифицировать личность.
Подробный порядок работы функций
- Высокоточное распознавание текста: Настраивая различные стратегии OCR (например, Marker, Llama3.2-vision и т. д.), можно добиться высокоточного извлечения текста для различных документов. Пользователи могут выбрать наиболее подходящую стратегию OCR в зависимости от типа документа.
- преобразование документов: Поддержка PDF, Word, PPTX и других форматов Документ будет преобразован в формат Markdown или JSON, чтобы облегчить последующую обработку и анализ данных.
- Удаление PII: Автоматически определяет и удаляет персональную информацию из документов, чтобы обеспечить конфиденциальность и безопасность данных.
- распределённая обработка: Распределенная обработка задач с использованием Celery для поддержки крупномасштабных задач обработки документов и повышения эффективности обработки.
- механизм кэширования: Используйте Redis для кэширования результатов OCR, чтобы сократить время повторной обработки и улучшить время отклика системы.
- Политика многоместного хранения: Поддерживаются различные способы хранения данных, такие как локальная файловая система, Google Диск и т. д. Пользователи могут выбрать подходящую стратегию хранения в соответствии со своими потребностями.
- Инструменты CLIДля удобства пользователей предусмотрены инструменты командной строки, позволяющие отправлять задания и обрабатывать результаты с помощью простых команд.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...