ExtractThinker: извлечение и категоризация документов в структурированные данные для оптимизации процесса обработки документов

Общее введение

ExtractThinker - это гибкий инструмент для анализа документов, который использует большие языковые модели (LLM) для извлечения и классификации структурированных данных из документов, обеспечивая бесшовный ORM-подобный рабочий процесс обработки документов. Он поддерживает различные загрузчики документов, включая Tesseract OCR, Azure Form Recognizer, AWS Textract, Google Document AI и другие. Пользователи могут определять пользовательские контракты на извлечение данных, используя модели Pydantic для точного извлечения данных. Инструмент также поддерживает асинхронную обработку, обработку документов в нескольких форматах (например, PDF, изображения, электронные таблицы и т. д.) и интегрируется с различными провайдерами LLM (например, OpenAI, Anthropic, Cohere и т. д.).

ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

 

Список функций

  • Гибкий загрузчик документов: Поддержка нескольких загрузчиков документов, включая Tesseract OCR, Azure Form Recognizer, AWS Textract и Google Document AI.
  • Индивидуальные контракты на вывод средств: Определение пользовательских контрактов на извлечение данных с использованием модели Pydantic для точного извлечения данных.
  • Продвинутая классификацияКлассифицировать документы или разделы документов с помощью пользовательских классификаций и политик.
  • асинхронная обработка: Эффективная обработка больших документов с использованием асинхронной обработки.
  • Поддержка нескольких форматов: Бесшовная работа с различными форматами документов, такими как PDF, изображения, электронные таблицы и т. д.
  • Взаимодействие в стиле ORM: Взаимодействует с документацией и LLM в стиле ORM для удобства разработки.
  • стратегия сегментации: Реализуйте стратегии ленивой или энергичной сегментации для обработки документов по страницам или целиком.
  • Интеграция с LLM: Легкая интеграция с различными провайдерами LLM (например, OpenAI, Anthropic, Cohere и т.д.).

 

Использование помощи

Процесс установки

  1. Установите ExtractThinker: Установите ExtractThinker с помощью pip:
   pip install extract_thinker

Руководство по использованию

Пример базового извлечения

Следующий пример демонстрирует, как использовать PyPdf для загрузки документа и извлечения определенных полей, заданных в контракте:

import os
from dotenv import load_dotenv
from extract_thinker import Extractor, DocumentLoaderPyPdf, Contract
load_dotenv()
class InvoiceContract(Contract):
invoice_number: str
invoice_date: str
# 设置 Tesseract 可执行文件的路径
test_file_path = os.path.join("path_to_your_files", "invoice.pdf")
# 初始化提取器
extractor = Extractor()
extractor.load_document_loader(DocumentLoaderPyPdf())
extractor.load_llm("gpt-4o-mini")  # 或任何其他支持的模型
# 从文档中提取数据
result = extractor.extract(test_file_path, InvoiceContract)
print("Invoice Number:", result.invoice_number)
print("Invoice Date:", result.invoice_date)

Примеры категоризации

ExtractThinker позволяет классифицировать документы или разделы документов с помощью пользовательских классификаций:

import os
from dotenv import load_dotenv
from extract_thinker import Extractor, Classification, Process, ClassificationStrategy
load_dotenv()
class CustomClassification(Classification):
category: str
# 初始化提取器
extractor = Extractor()
extractor.load_classification_strategy(ClassificationStrategy.CUSTOM)
# 定义分类策略
classification = CustomClassification(category="Invoice")
# 从文档中分类数据
result = extractor.classify(test_file_path, classification)
print("Category:", result.category)

Подробный порядок работы функций

  1. Загрузка документов: Загрузка документов с помощью поддерживаемых загрузчиков документов (например, PyPdf, Tesseract OCR и т. д.).
  2. Определение контрактов на вывод средств: Определите пользовательский контракт на извлечение с помощью модели Pydantic, указав поля, которые необходимо извлечь.
  3. Инициализация экстрактора: Создайте экземпляр Extractor и загрузите в него загрузчик документов и модель LLM.
  4. Извлечение данных: Звонок extract Метод извлекает данные из документа и возвращает результаты, основанные на определенных в договоре полях.
  5. Документы категории: Чтобы классифицировать документ или часть документа с помощью пользовательской политики классификации, вызовите команду classify метод для получения результатов классификации.

Выполнив все вышеперечисленные действия, пользователи смогут эффективно извлекать и классифицировать данные из документов различных форматов и оптимизировать процесс обработки документов.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...