ExtractThinker: извлечение и категоризация документов в структурированные данные для оптимизации процесса обработки документов
Общее введение
ExtractThinker - это гибкий инструмент для анализа документов, который использует большие языковые модели (LLM) для извлечения и классификации структурированных данных из документов, обеспечивая бесшовный ORM-подобный рабочий процесс обработки документов. Он поддерживает различные загрузчики документов, включая Tesseract OCR, Azure Form Recognizer, AWS Textract, Google Document AI и другие. Пользователи могут определять пользовательские контракты на извлечение данных, используя модели Pydantic для точного извлечения данных. Инструмент также поддерживает асинхронную обработку, обработку документов в нескольких форматах (например, PDF, изображения, электронные таблицы и т. д.) и интегрируется с различными провайдерами LLM (например, OpenAI, Anthropic, Cohere и т. д.).

Список функций
- Гибкий загрузчик документов: Поддержка нескольких загрузчиков документов, включая Tesseract OCR, Azure Form Recognizer, AWS Textract и Google Document AI.
- Индивидуальные контракты на вывод средств: Определение пользовательских контрактов на извлечение данных с использованием модели Pydantic для точного извлечения данных.
- Продвинутая классификацияКлассифицировать документы или разделы документов с помощью пользовательских классификаций и политик.
- асинхронная обработка: Эффективная обработка больших документов с использованием асинхронной обработки.
- Поддержка нескольких форматов: Бесшовная работа с различными форматами документов, такими как PDF, изображения, электронные таблицы и т. д.
- Взаимодействие в стиле ORM: Взаимодействует с документацией и LLM в стиле ORM для удобства разработки.
- стратегия сегментации: Реализуйте стратегии ленивой или энергичной сегментации для обработки документов по страницам или целиком.
- Интеграция с LLM: Легкая интеграция с различными провайдерами LLM (например, OpenAI, Anthropic, Cohere и т.д.).
Использование помощи
Процесс установки
- Установите ExtractThinker: Установите ExtractThinker с помощью pip:
pip install extract_thinker
Руководство по использованию
Пример базового извлечения
Следующий пример демонстрирует, как использовать PyPdf для загрузки документа и извлечения определенных полей, заданных в контракте:
import os
from dotenv import load_dotenv
from extract_thinker import Extractor, DocumentLoaderPyPdf, Contract
load_dotenv()
class InvoiceContract(Contract):
invoice_number: str
invoice_date: str
# 设置 Tesseract 可执行文件的路径
test_file_path = os.path.join("path_to_your_files", "invoice.pdf")
# 初始化提取器
extractor = Extractor()
extractor.load_document_loader(DocumentLoaderPyPdf())
extractor.load_llm("gpt-4o-mini") # 或任何其他支持的模型
# 从文档中提取数据
result = extractor.extract(test_file_path, InvoiceContract)
print("Invoice Number:", result.invoice_number)
print("Invoice Date:", result.invoice_date)
Примеры категоризации
ExtractThinker позволяет классифицировать документы или разделы документов с помощью пользовательских классификаций:
import os
from dotenv import load_dotenv
from extract_thinker import Extractor, Classification, Process, ClassificationStrategy
load_dotenv()
class CustomClassification(Classification):
category: str
# 初始化提取器
extractor = Extractor()
extractor.load_classification_strategy(ClassificationStrategy.CUSTOM)
# 定义分类策略
classification = CustomClassification(category="Invoice")
# 从文档中分类数据
result = extractor.classify(test_file_path, classification)
print("Category:", result.category)
Подробный порядок работы функций
- Загрузка документов: Загрузка документов с помощью поддерживаемых загрузчиков документов (например, PyPdf, Tesseract OCR и т. д.).
- Определение контрактов на вывод средств: Определите пользовательский контракт на извлечение с помощью модели Pydantic, указав поля, которые необходимо извлечь.
- Инициализация экстрактора: Создайте экземпляр Extractor и загрузите в него загрузчик документов и модель LLM.
- Извлечение данных: Звонок
extract
Метод извлекает данные из документа и возвращает результаты, основанные на определенных в договоре полях. - Документы категории: Чтобы классифицировать документ или часть документа с помощью пользовательской политики классификации, вызовите команду
classify
метод для получения результатов классификации.
Выполнив все вышеперечисленные действия, пользователи смогут эффективно извлекать и классифицировать данные из документов различных форматов и оптимизировать процесс обработки документов.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...