ExtractThinker: extracción y categorización de documentos en datos estructurados para optimizar el proceso de tratamiento de documentos.
Últimos recursos sobre IAPublicado hace 7 meses Círculo de intercambio de inteligencia artificial 1.7K 00
Introducción general
ExtractThinker es una herramienta flexible de inteligencia de documentos que utiliza modelos lingüísticos amplios (LLM) para extraer y clasificar datos estructurados de documentos, proporcionando un flujo de trabajo de procesamiento de documentos sin fisuras similar a ORM. Es compatible con diversos cargadores de documentos, como Tesseract OCR, Azure Form Recognizer, AWS Textract y Google Document AI, entre otros. Los usuarios pueden definir contratos de extracción personalizados utilizando modelos Pydantic para una extracción de datos precisa. La herramienta también admite el procesamiento asíncrono, el procesamiento de documentos multiformato (por ejemplo, PDF, imágenes, hojas de cálculo, etc.) y se integra con diversos proveedores de LLM (por ejemplo, OpenAI, Anthropic, Cohere, etc.).

Lista de funciones
- Cargador flexible de documentosCompatibilidad con varios cargadores de documentos, incluidos Tesseract OCR, Azure Form Recognizer, AWS Textract y Google Document AI.
- Contratos de desistimiento personalizados: Defina contratos de extracción personalizados utilizando el modelo Pydantic para una extracción de datos precisa.
- Clasificación avanzada: Clasifique documentos o secciones de documentos utilizando clasificaciones y políticas personalizadas.
- procesamiento asíncronoProcesamiento eficiente de documentos de gran tamaño mediante procesamiento asíncrono.
- Soporte multiformato: Maneja sin problemas una gran variedad de formatos de documentos, como PDF, imágenes, hojas de cálculo, etc.
- Interacciones de estilo ORMInteractúa con la documentación y los LLM en estilo ORM para facilitar el desarrollo.
- estrategia de segmentaciónImplementa estrategias de segmentación lazy o eager para procesar documentos por página o como un todo.
- Integración con LLM: Se integra fácilmente con diferentes proveedores de LLM (por ejemplo, OpenAI, Anthropic, Cohere, etc.).
Utilizar la ayuda
Proceso de instalación
- Instalar ExtractThinkerInstala ExtractThinker usando pip:
pip install extract_thinker
Normas de uso
Ejemplo básico de extracción
El siguiente ejemplo muestra cómo utilizar PyPdf para cargar un documento y extraer campos específicos definidos en un contrato:
import os
from dotenv import load_dotenv
from extract_thinker import Extractor, DocumentLoaderPyPdf, Contract
load_dotenv()
class InvoiceContract(Contract):
invoice_number: str
invoice_date: str
# 设置 Tesseract 可执行文件的路径
test_file_path = os.path.join("path_to_your_files", "invoice.pdf")
# 初始化提取器
extractor = Extractor()
extractor.load_document_loader(DocumentLoaderPyPdf())
extractor.load_llm("gpt-4o-mini") # 或任何其他支持的模型
# 从文档中提取数据
result = extractor.extract(test_file_path, InvoiceContract)
print("Invoice Number:", result.invoice_number)
print("Invoice Date:", result.invoice_date)
Ejemplos de categorización
ExtractThinker permite clasificar documentos o secciones de documentos mediante clasificaciones personalizadas:
import os
from dotenv import load_dotenv
from extract_thinker import Extractor, Classification, Process, ClassificationStrategy
load_dotenv()
class CustomClassification(Classification):
category: str
# 初始化提取器
extractor = Extractor()
extractor.load_classification_strategy(ClassificationStrategy.CUSTOM)
# 定义分类策略
classification = CustomClassification(category="Invoice")
# 从文档中分类数据
result = extractor.classify(test_file_path, classification)
print("Category:", result.category)
Flujo detallado de funcionamiento de las funciones
- Carga de documentosUtiliza cargadores de documentos compatibles (por ejemplo, PyPdf, Tesseract OCR, etc.) para cargar documentos.
- Definición de los contratos de desistimientoDefinir un contrato de extracción personalizado utilizando el modelo Pydantic, especificando los campos a extraer.
- Inicialización del extractor: Crea una instancia de Extractor y carga el cargador de documentos y el modelo LLM.
- Extraer datos: Llamada
extract
extrae datos del documento y devuelve resultados basados en campos definidos contractualmente. - Categoría DocumentosPara clasificar un documento o parte de un documento utilizando una política de clasificación personalizada, llame al comando
classify
para obtener los resultados de la clasificación.
Con los pasos anteriores, los usuarios pueden extraer y clasificar eficazmente datos de documentos en varios formatos y optimizar el flujo de procesamiento de documentos.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...