ExtractThinker: extracción y categorización de documentos en datos estructurados para optimizar el proceso de tratamiento de documentos.

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

61.3K 00

Introducción general

ExtractThinker es una herramienta flexible de inteligencia de documentos que utiliza modelos lingüísticos amplios (LLM) para extraer y clasificar datos estructurados de documentos, proporcionando un flujo de trabajo de procesamiento de documentos sin fisuras similar a ORM. Es compatible con diversos cargadores de documentos, como Tesseract OCR, Azure Form Recognizer, AWS Textract y Google Document AI, entre otros. Los usuarios pueden definir contratos de extracción personalizados utilizando modelos Pydantic para una extracción de datos precisa. La herramienta también admite el procesamiento asíncrono, el procesamiento de documentos multiformato (por ejemplo, PDF, imágenes, hojas de cálculo, etc.) y se integra con diversos proveedores de LLM (por ejemplo, OpenAI, Anthropic, Cohere, etc.).

Lista de funciones

Cargador flexible de documentosCompatibilidad con varios cargadores de documentos, incluidos Tesseract OCR, Azure Form Recognizer, AWS Textract y Google Document AI.
Contratos de desistimiento personalizados: Defina contratos de extracción personalizados utilizando el modelo Pydantic para una extracción de datos precisa.
Clasificación avanzada: Clasifique documentos o secciones de documentos utilizando clasificaciones y políticas personalizadas.
procesamiento asíncronoProcesamiento eficiente de documentos de gran tamaño mediante procesamiento asíncrono.
Soporte multiformato: Maneja sin problemas una gran variedad de formatos de documentos, como PDF, imágenes, hojas de cálculo, etc.
Interacciones de estilo ORMInteractúa con la documentación y los LLM en estilo ORM para facilitar el desarrollo.
estrategia de segmentaciónImplementa estrategias de segmentación lazy o eager para procesar documentos por página o como un todo.
Integración con LLM: Se integra fácilmente con diferentes proveedores de LLM (por ejemplo, OpenAI, Anthropic, Cohere, etc.).

Utilizar la ayuda

Proceso de instalación

Instalar ExtractThinkerInstala ExtractThinker usando pip:

   pip install extract_thinker

Normas de uso

Ejemplo básico de extracción

El siguiente ejemplo muestra cómo utilizar PyPdf para cargar un documento y extraer campos específicos definidos en un contrato:

import os
from dotenv import load_dotenv
from extract_thinker import Extractor, DocumentLoaderPyPdf, Contract
load_dotenv()
class InvoiceContract(Contract):
invoice_number: str
invoice_date: str
# 设置 Tesseract 可执行文件的路径
test_file_path = os.path.join("path_to_your_files", "invoice.pdf")
# 初始化提取器
extractor = Extractor()
extractor.load_document_loader(DocumentLoaderPyPdf())
extractor.load_llm("gpt-4o-mini")  # 或任何其他支持的模型
# 从文档中提取数据
result = extractor.extract(test_file_path, InvoiceContract)
print("Invoice Number:", result.invoice_number)
print("Invoice Date:", result.invoice_date)

Ejemplos de categorización

ExtractThinker permite clasificar documentos o secciones de documentos mediante clasificaciones personalizadas:

import os
from dotenv import load_dotenv
from extract_thinker import Extractor, Classification, Process, ClassificationStrategy
load_dotenv()
class CustomClassification(Classification):
category: str
# 初始化提取器
extractor = Extractor()
extractor.load_classification_strategy(ClassificationStrategy.CUSTOM)
# 定义分类策略
classification = CustomClassification(category="Invoice")
# 从文档中分类数据
result = extractor.classify(test_file_path, classification)
print("Category:", result.category)

Flujo detallado de funcionamiento de las funciones

Carga de documentosUtiliza cargadores de documentos compatibles (por ejemplo, PyPdf, Tesseract OCR, etc.) para cargar documentos.
Definición de los contratos de desistimientoDefinir un contrato de extracción personalizado utilizando el modelo Pydantic, especificando los campos a extraer.
Inicialización del extractor: Crea una instancia de Extractor y carga el cargador de documentos y el modelo LLM.
Extraer datos: Llamada extract extrae datos del documento y devuelve resultados basados en campos definidos contractualmente.
Categoría DocumentosPara clasificar un documento o parte de un documento utilizando una política de clasificación personalizada, llame al comando classify para obtener los resultados de la clasificación.

Con los pasos anteriores, los usuarios pueden extraer y clasificar eficazmente datos de documentos en varios formatos y optimizar el flujo de procesamiento de documentos.

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

KoboldCpp: Ejecuta fácilmente modelos GGUF con referencia a KoboldAI, con API y GUI

Últimos recursos sobre IA # Herramienta de modelos de gran tamaño de código abierto desplegada localmente

hace 1 año

0129.3K

Xunlei MCP - Xunlei lanza un servicio de descarga automática de inteligencia artificial

Últimos recursos sobre IA

hace 9 meses

051.7K

V-JEPA 2 - El modelo de gran tamaño más potente del mundo de Meta AI

Últimos recursos sobre IA

hace 10 meses

045.9K

ResumeUp.AI: diálogo con la IA para generar el currículum y las cartas de presentación correspondientes al puesto de trabajo

Últimos recursos sobre IA # AI Asistente de Eficiencia Vital

hace 1 año

054.3K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

ExtractThinker: extracción y categorización de documentos en datos estructurados para optimizar el proceso de tratamiento de documentos.

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Normas de uso

Ejemplo básico de extracción

Ejemplos de categorización

Flujo detallado de funcionamiento de las funciones

NeoAI: proyecto de código abierto que permite a la IA manejar ordenadores a distancia y controlarlos mediante lenguaje natural

TangoFlux: ¡Una rápida herramienta de conversión de texto a doblaje que genera 30 segundos de audio largo en 3 segundos!

Artículos relacionados

KoboldCpp: Ejecuta fácilmente modelos GGUF con referencia a KoboldAI, con API y GUI

Xunlei MCP - Xunlei lanza un servicio de descarga automática de inteligencia artificial

V-JEPA 2 - El modelo de gran tamaño más potente del mundo de Meta AI

ResumeUp.AI: diálogo con la IA para generar el currículum y las cartas de presentación correspondientes al puesto de trabajo

Sin comentarios

Últimas colecciones

Últimos artículos

ExtractThinker: extracción y categorización de documentos en datos estructurados para optimizar el proceso de tratamiento de documentos.

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Normas de uso

Ejemplo básico de extracción

Ejemplos de categorización

Flujo detallado de funcionamiento de las funciones

NeoAI: proyecto de código abierto que permite a la IA manejar ordenadores a distancia y controlarlos mediante lenguaje natural

TangoFlux: ¡Una rápida herramienta de conversión de texto a doblaje que genera 30 segundos de audio largo en 3 segundos!

Artículos relacionados

KoboldCpp: Ejecuta fácilmente modelos GGUF con referencia a KoboldAI, con API y GUI

Xunlei MCP - Xunlei lanza un servicio de descarga automática de inteligencia artificial

V-JEPA 2 - El modelo de gran tamaño más potente del mundo de Meta AI

ResumeUp.AI: diálogo con la IA para generar el currículum y las cartas de presentación correspondientes al puesto de trabajo

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos