일반 소개
ExtractThinker는 LLM(대규모 언어 모델)을 사용해 문서에서 구조화된 데이터를 추출하고 분류하는 유연한 문서 인텔리전스 도구로, 원활한 ORM과 같은 문서 처리 워크플로우를 제공합니다. 이 도구는 Tesseract OCR, Azure Form Recognizer, AWS Textract, Google Document AI 등 다양한 문서 로더를 지원합니다. 사용자는 정확한 데이터 추출을 위해 Pydantic 모델을 사용하여 사용자 정의 추출 계약을 정의할 수 있습니다. 또한 이 도구는 비동기 처리, 다중 형식 문서 처리(예: PDF, 이미지, 스프레드시트 등)를 지원하며 다양한 LLM 제공업체(예: OpenAI, Anthropic, Cohere 등)와 통합할 수 있습니다.

기능 목록
- 유연한 문서 로더테서랙트 OCR, Azure 양식 인식기, AWS 텍스트랙트, Google 문서 AI 등 여러 문서 로더를 지원합니다.
- 맞춤형 출금 계약정확한 데이터 추출을 위해 Pydantic 모델을 사용하여 사용자 지정 추출 계약을 정의합니다.
- 고급 분류사용자 지정 분류 및 정책을 사용하여 문서 또는 문서 섹션을 분류합니다.
- 비동기 처리비동기 처리를 사용하여 대용량 문서를 효율적으로 처리합니다.
- 멀티 포맷 지원PDF, 이미지, 스프레드시트 등 다양한 문서 형식을 원활하게 처리할 수 있습니다.
- ORM 스타일 상호 작용간편한 개발을 위해 문서 및 LLM과 ORM 스타일로 상호 작용합니다.
- 세분화 전략페이지별 또는 전체 문서를 처리하기 위해 게으르거나 열성적인 세분화 전략을 구현합니다.
- LLM과 통합다양한 LLM 제공업체(예: OpenAI, Anthropic, Cohere 등)와 쉽게 통합할 수 있습니다.
도움말 사용
설치 프로세스
- ExtractThinker 설치: pip를 사용하여 ExtractThinker를 설치합니다:
pip install extract_thinker
사용 가이드라인
기본 추출 예제
다음 예는 PyPdf를 사용하여 문서를 로드하고 계약에 정의된 특정 필드를 추출하는 방법을 보여줍니다:
import os
from dotenv import load_dotenv
from extract_thinker import Extractor, DocumentLoaderPyPdf, Contract
load_dotenv()
class InvoiceContract(Contract):
invoice_number: str
invoice_date: str
# 设置 Tesseract 可执行文件的路径
test_file_path = os.path.join("path_to_your_files", "invoice.pdf")
# 初始化提取器
extractor = Extractor()
extractor.load_document_loader(DocumentLoaderPyPdf())
extractor.load_llm("gpt-4o-mini") # 或任何其他支持的模型
# 从文档中提取数据
result = extractor.extract(test_file_path, InvoiceContract)
print("Invoice Number:", result.invoice_number)
print("Invoice Date:", result.invoice_date)
분류 예시
ExtractThinker를 사용하면 사용자 지정 분류를 사용하여 문서 또는 문서 섹션을 분류할 수 있습니다:
import os
from dotenv import load_dotenv
from extract_thinker import Extractor, Classification, Process, ClassificationStrategy
load_dotenv()
class CustomClassification(Classification):
category: str
# 初始化提取器
extractor = Extractor()
extractor.load_classification_strategy(ClassificationStrategy.CUSTOM)
# 定义分类策略
classification = CustomClassification(category="Invoice")
# 从文档中分类数据
result = extractor.classify(test_file_path, classification)
print("Category:", result.category)
세부 기능 작동 흐름
- 문서 로드지원되는 문서 로더(예: PyPdf, Tesseract OCR 등)를 사용하여 문서를 로드합니다.
- 출금 계약의 정의추출할 필드를 지정하여 Pydantic 모델을 사용하여 사용자 지정 추출 계약을 정의합니다.
- 추출기 초기화하기추출기 인스턴스를 생성하고 문서 로더와 LLM 모델을 로드합니다.
- 데이터 추출: 전화
extract
메서드는 문서에서 데이터를 추출하고 계약에 따라 정의된 필드를 기반으로 결과를 반환합니다. - 카테고리 문서사용자 지정 분류 정책을 사용하여 문서 또는 문서의 일부를 분류하려면 다음을 호출하세요.
classify
메서드를 호출하여 분류 결과를 얻습니다.
위의 단계를 통해 사용자는 다양한 형식의 문서에서 데이터를 효율적으로 추출 및 분류하고 문서 처리 흐름을 최적화할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...