ExtractThinker: извлечение и категоризация документов в структурированные данные для оптимизации процесса обработки документов

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

61.5K 00

Общее введение

ExtractThinker - это гибкий инструмент для анализа документов, который использует большие языковые модели (LLM) для извлечения и классификации структурированных данных из документов, обеспечивая бесшовный ORM-подобный рабочий процесс обработки документов. Он поддерживает различные загрузчики документов, включая Tesseract OCR, Azure Form Recognizer, AWS Textract, Google Document AI и другие. Пользователи могут определять пользовательские контракты на извлечение данных, используя модели Pydantic для точного извлечения данных. Инструмент также поддерживает асинхронную обработку, обработку документов в нескольких форматах (например, PDF, изображения, электронные таблицы и т. д.) и интегрируется с различными провайдерами LLM (например, OpenAI, Anthropic, Cohere и т. д.).

Список функций

Гибкий загрузчик документов: Поддержка нескольких загрузчиков документов, включая Tesseract OCR, Azure Form Recognizer, AWS Textract и Google Document AI.
Индивидуальные контракты на вывод средств: Определение пользовательских контрактов на извлечение данных с использованием модели Pydantic для точного извлечения данных.
Продвинутая классификацияКлассифицировать документы или разделы документов с помощью пользовательских классификаций и политик.
асинхронная обработка: Эффективная обработка больших документов с использованием асинхронной обработки.
Поддержка нескольких форматов: Бесшовная работа с различными форматами документов, такими как PDF, изображения, электронные таблицы и т. д.
Взаимодействие в стиле ORM: Взаимодействует с документацией и LLM в стиле ORM для удобства разработки.
стратегия сегментации: Реализуйте стратегии ленивой или энергичной сегментации для обработки документов по страницам или целиком.
Интеграция с LLM: Легкая интеграция с различными провайдерами LLM (например, OpenAI, Anthropic, Cohere и т.д.).

Использование помощи

Процесс установки

Установите ExtractThinker: Установите ExtractThinker с помощью pip:

   pip install extract_thinker

Руководство по использованию

Пример базового извлечения

Следующий пример демонстрирует, как использовать PyPdf для загрузки документа и извлечения определенных полей, заданных в контракте:

import os
from dotenv import load_dotenv
from extract_thinker import Extractor, DocumentLoaderPyPdf, Contract
load_dotenv()
class InvoiceContract(Contract):
invoice_number: str
invoice_date: str
# 设置 Tesseract 可执行文件的路径
test_file_path = os.path.join("path_to_your_files", "invoice.pdf")
# 初始化提取器
extractor = Extractor()
extractor.load_document_loader(DocumentLoaderPyPdf())
extractor.load_llm("gpt-4o-mini")  # 或任何其他支持的模型
# 从文档中提取数据
result = extractor.extract(test_file_path, InvoiceContract)
print("Invoice Number:", result.invoice_number)
print("Invoice Date:", result.invoice_date)

Примеры категоризации

ExtractThinker позволяет классифицировать документы или разделы документов с помощью пользовательских классификаций:

import os
from dotenv import load_dotenv
from extract_thinker import Extractor, Classification, Process, ClassificationStrategy
load_dotenv()
class CustomClassification(Classification):
category: str
# 初始化提取器
extractor = Extractor()
extractor.load_classification_strategy(ClassificationStrategy.CUSTOM)
# 定义分类策略
classification = CustomClassification(category="Invoice")
# 从文档中分类数据
result = extractor.classify(test_file_path, classification)
print("Category:", result.category)

Подробный порядок работы функций

Загрузка документов: Загрузка документов с помощью поддерживаемых загрузчиков документов (например, PyPdf, Tesseract OCR и т. д.).
Определение контрактов на вывод средств: Определите пользовательский контракт на извлечение с помощью модели Pydantic, указав поля, которые необходимо извлечь.
Инициализация экстрактора: Создайте экземпляр Extractor и загрузите в него загрузчик документов и модель LLM.
Извлечение данных: Звонок extract Метод извлекает данные из документа и возвращает результаты, основанные на определенных в договоре полях.
Документы категории: Чтобы классифицировать документ или часть документа с помощью пользовательской политики классификации, вызовите команду classify метод для получения результатов классификации.

Выполнив все вышеперечисленные действия, пользователи смогут эффективно извлекать и классифицировать данные из документов различных форматов и оптимизировать процесс обработки документов.