ExtractThinker: 문서를 구조화된 데이터로 추출하고 분류하여 문서 처리 프로세스를 최적화합니다.

61.5K 00

일반 소개

ExtractThinker는 LLM(대규모 언어 모델)을 사용해 문서에서 구조화된 데이터를 추출하고 분류하는 유연한 문서 인텔리전스 도구로, 원활한 ORM과 같은 문서 처리 워크플로우를 제공합니다. 이 도구는 Tesseract OCR, Azure Form Recognizer, AWS Textract, Google Document AI 등 다양한 문서 로더를 지원합니다. 사용자는 정확한 데이터 추출을 위해 Pydantic 모델을 사용하여 사용자 정의 추출 계약을 정의할 수 있습니다. 또한 이 도구는 비동기 처리, 다중 형식 문서 처리(예: PDF, 이미지, 스프레드시트 등)를 지원하며 다양한 LLM 제공업체(예: OpenAI, Anthropic, Cohere 등)와 통합할 수 있습니다.

기능 목록

유연한 문서 로더테서랙트 OCR, Azure 양식 인식기, AWS 텍스트랙트, Google 문서 AI 등 여러 문서 로더를 지원합니다.
맞춤형 출금 계약정확한 데이터 추출을 위해 Pydantic 모델을 사용하여 사용자 지정 추출 계약을 정의합니다.
고급 분류사용자 지정 분류 및 정책을 사용하여 문서 또는 문서 섹션을 분류합니다.
비동기 처리비동기 처리를 사용하여 대용량 문서를 효율적으로 처리합니다.
멀티 포맷 지원PDF, 이미지, 스프레드시트 등 다양한 문서 형식을 원활하게 처리할 수 있습니다.
ORM 스타일 상호 작용간편한 개발을 위해 문서 및 LLM과 ORM 스타일로 상호 작용합니다.
세분화 전략페이지별 또는 전체 문서를 처리하기 위해 게으르거나 열성적인 세분화 전략을 구현합니다.
LLM과 통합다양한 LLM 제공업체(예: OpenAI, Anthropic, Cohere 등)와 쉽게 통합할 수 있습니다.

도움말 사용

설치 프로세스

ExtractThinker 설치: pip를 사용하여 ExtractThinker를 설치합니다:

   pip install extract_thinker

사용 가이드라인

기본 추출 예제

다음 예는 PyPdf를 사용하여 문서를 로드하고 계약에 정의된 특정 필드를 추출하는 방법을 보여줍니다:

import os
from dotenv import load_dotenv
from extract_thinker import Extractor, DocumentLoaderPyPdf, Contract
load_dotenv()
class InvoiceContract(Contract):
invoice_number: str
invoice_date: str
# 设置 Tesseract 可执行文件的路径
test_file_path = os.path.join("path_to_your_files", "invoice.pdf")
# 初始化提取器
extractor = Extractor()
extractor.load_document_loader(DocumentLoaderPyPdf())
extractor.load_llm("gpt-4o-mini")  # 或任何其他支持的模型
# 从文档中提取数据
result = extractor.extract(test_file_path, InvoiceContract)
print("Invoice Number:", result.invoice_number)
print("Invoice Date:", result.invoice_date)

분류 예시

ExtractThinker를 사용하면 사용자 지정 분류를 사용하여 문서 또는 문서 섹션을 분류할 수 있습니다:

import os
from dotenv import load_dotenv
from extract_thinker import Extractor, Classification, Process, ClassificationStrategy
load_dotenv()
class CustomClassification(Classification):
category: str
# 初始化提取器
extractor = Extractor()
extractor.load_classification_strategy(ClassificationStrategy.CUSTOM)
# 定义分类策略
classification = CustomClassification(category="Invoice")
# 从文档中分类数据
result = extractor.classify(test_file_path, classification)
print("Category:", result.category)

세부 기능 작동 흐름

문서 로드지원되는 문서 로더(예: PyPdf, Tesseract OCR 등)를 사용하여 문서를 로드합니다.
출금 계약의 정의추출할 필드를 지정하여 Pydantic 모델을 사용하여 사용자 지정 추출 계약을 정의합니다.
추출기 초기화하기추출기 인스턴스를 생성하고 문서 로더와 LLM 모델을 로드합니다.
데이터 추출: 전화 extract 메서드는 문서에서 데이터를 추출하고 계약에 따라 정의된 필드를 기반으로 결과를 반환합니다.
카테고리 문서사용자 지정 분류 정책을 사용하여 문서 또는 문서의 일부를 분류하려면 다음을 호출하세요. classify 메서드를 호출하여 분류 결과를 얻습니다.

위의 단계를 통해 사용자는 다양한 형식의 문서에서 데이터를 효율적으로 추출 및 분류하고 문서 처리 흐름을 최적화할 수 있습니다.