API извлечения текста (text-extract-api): визуальное извлечение текстовой информации, инструмент для извлечения анонимных PDF-файлов

Общее введение

API извлечения текста (text-extract-api) - это мощный инструмент, предназначенный для извлечения и разбора содержимого из документов различных форматов (например, PDF, Word, PPTX и т. д.). API использует современную технологию оптического распознавания символов (OCR) и модели, поддерживаемые Ollama, для преобразования любого документа или изображения в структурированный формат JSON или Markdown. Среди ключевых особенностей - высокоточное извлечение текста, удаление персонально идентифицируемой информации (PII), поддержка нескольких стратегий хранения и распределенная обработка задач. API для извлечения текста построен на основе FastAPI и использует Celery для асинхронной обработки задач и Redis для кэширования результатов OCR, чтобы обеспечить эффективную и надежную обработку документов.

pdf-extract-api - это API для извлечения и разбора документов, который поддерживает анонимизацию документов с помощью современных технологий OCR и моделей, поддерживаемых Ollama. Он может преобразовать любой документ или изображение в структурированный JSON или Markdown, поддерживает высокоточное извлечение табличных данных, чисел и математических формул. Построенный на FastAPI, API использует Celery для асинхронной обработки задач и Redis для кэширования результатов OCR, обеспечивая эффективную и надежную обработку документов.

文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

 

文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

 

Список функций

  • Высокоточный OCR: используйте PyTorch, Marker, Llama3.2-vision и другие стратегии OCR для высокоточного извлечения текста.
  • Конвертация документов: поддержка PDF, Word, PPTX и других документов в формат Markdown или JSON.
  • Удалить PII: автоматически определяет и удаляет из документов информацию, позволяющую идентифицировать личность.
  • Распределенная обработка: используйте Celery для распределенной обработки задач, чтобы повысить эффективность обработки.
  • Механизм кэширования: используйте Redis для кэширования результатов OCR, чтобы сократить время повторной обработки.
  • Стратегия мультихранилища: поддержка локальной файловой системы, Google Drive и других методов хранения.
  • Инструменты CLI: Предоставьте инструменты командной строки, чтобы облегчить пользователям отправку заданий и обработку результатов.

 

Использование помощи

Процесс установки

  1. Загрузите и установите Ollama.
  2. Загрузите и установите Docker.
  3. Клонируйте репозиторий text-extract-api:
   git clone https://github.com/CatchTheTornado/text-extract-api.git
  1. Перейдите в каталог проекта и запустите контейнер Docker:
   cd text-extract-api
docker-compose up

Использование

преобразование документов

  1. Загрузите документы для преобразования в указанную директорию.
  2. Используйте инструмент CLI для отправки заданий на преобразование:
   python client/cli.py ocr_upload --file examples/example.pdf --prompt_file examples/example-to-json-prompt.txt
  1. Результат преобразования будет сохранен в формате JSON или Markdown в указанной директории.

Удаление PII

  1. Загрузите документ, содержащий PII.
  2. Используйте инструмент CLI для отправки заданий по удалению PII:
   python client/cli.py ocr_upload --file examples/example-pii.pdf --prompt_file examples/example-remove-pii.txt
  1. Из обработанных документов будет удалена вся информация, позволяющая идентифицировать личность.

Подробный порядок работы функций

  1. Высокоточное распознавание текста: Настраивая различные стратегии OCR (например, Marker, Llama3.2-vision и т. д.), можно добиться высокоточного извлечения текста для различных документов. Пользователи могут выбрать наиболее подходящую стратегию OCR в зависимости от типа документа.
  2. преобразование документов: Поддержка PDF, Word, PPTX и других форматов Документ будет преобразован в формат Markdown или JSON, чтобы облегчить последующую обработку и анализ данных.
  3. Удаление PII: Автоматически определяет и удаляет персональную информацию из документов, чтобы обеспечить конфиденциальность и безопасность данных.
  4. распределённая обработка: Распределенная обработка задач с использованием Celery для поддержки крупномасштабных задач обработки документов и повышения эффективности обработки.
  5. механизм кэширования: Используйте Redis для кэширования результатов OCR, чтобы сократить время повторной обработки и улучшить время отклика системы.
  6. Политика многоместного хранения: Поддерживаются различные способы хранения данных, такие как локальная файловая система, Google Диск и т. д. Пользователи могут выбрать подходящую стратегию хранения в соответствии со своими потребностями.
  7. Инструменты CLIДля удобства пользователей предусмотрены инструменты командной строки, позволяющие отправлять задания и обрабатывать результаты с помощью простых команд.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...