AIパーソナル・ラーニング
と実践的なガイダンス

ExtractThinker: ドキュメントを構造化データに抽出・分類し、ドキュメント処理プロセスを最適化します。

はじめに

ExtractThinkerは、大規模言語モデル(LLM)を使用してドキュメントから構造化データを抽出・分類し、シームレスなORMのようなドキュメント処理ワークフローを提供する柔軟なドキュメントインテリジェンスツールです。Tesseract OCR、Azure Form Recognizer、AWS Textract、Google Document AIなど、様々なドキュメントローダーをサポートしている。ユーザーは正確なデータ抽出のためにPydanticモデルを使用したカスタム抽出契約を定義することができる。このツールはまた、非同期処理、マルチフォーマット文書処理(PDF、画像、スプレッドシートなど)をサポートし、様々なLLMプロバイダー(OpenAI、Anthropic、Cohereなど)と統合しています。

ExtractThinker: 文書を構造化データとして抽出・分類し、文書処理を最適化する-1


 

機能一覧

  • フレキシブルドキュメントローダーTesseract OCR、Azure Form Recognizer、AWS Textract、Google Document AIなど、複数のドキュメントローダーをサポート。
  • カスタマイズされた撤退契約正確なデータ抽出のためにPydanticモデルを使用してカスタム抽出契約を定義します。
  • 高度な分類カスタム分類とポリシーを使用して、文書または文書のセクションを分類します。
  • 非同期処理非同期処理による大規模文書の効率的処理。
  • マルチフォーマット対応PDF、画像、スプレッドシートなど、さまざまなドキュメント形式をシームレスに扱うことができます。
  • ORMスタイルのインタラクションORMスタイルでドキュメントやLLMと連動し、開発を容易にします。
  • セグメンテーション戦略遅延または熱心なセグメンテーション戦略を実装し、ドキュメントをページ単位または全体として処理します。
  • LLMとの統合様々なLLMプロバイダー(OpenAI、Anthropic、Cohereなど)と簡単に統合できます。

 

ヘルプの使用

設置プロセス

  1. ExtractThinkerをインストールするpip を使って ExtractThinker をインストールします:
   pip install extract_thinker

使用ガイドライン

基本的な抽出例

次の例では、PyPdfを使用してドキュメントを読み込み、コントラクトで定義された特定のフィールドを抽出する方法を示します:

import os
from dotenv import load_dotenv
from extract_thinker import Extractor, DocumentLoaderPyPdf, Contract
load_dotenv()
class InvoiceContract(Contract).
請求書番号: str
請求書日付: str
# Tesseract実行ファイルへのパスの設定
test_file_path = os.path.join("path_to_your_files", "invoice.pdf")
# 抽出器を初期化
extractor = Extractor()
extractor.load_document_loader(DocumentLoaderPyPdf())
extractor.load_llm("gpt-4o-mini") #または他のサポートされているモデル
#でドキュメントからデータを抽出
result = extractor.extract(test_file_path, InvoiceContract)
print("請求書番号:", result.invoice_number)
print("請求書の日付:", result.invoice_date)

カテゴリー分けの例

ExtractThinker では、 カ ス タ ム分類を使用 し て文書ま たは文書セ ク シ ョ ン を分類す る こ と がで き ます:

import os
from dotenv import load_dotenv
from extract_thinker import 抽出器、分類、プロセス、分類戦略
load_dotenv()
class CustomClassification(Classification).
カテゴリ: str
# 抽出器を初期化する
extractor = Extractor()
extractor.load_classification_strategy(ClassificationStrategy.CUSTOM)
# 分類ストラテジーを定義する
classification = CustomClassification(category="Invoice")
# ドキュメントからデータを分類する
result = extractor.classify(test_file_path, classification)
print("Category:", result.category)

詳細な機能操作の流れ

  1. 書類の読み込みサポートされているドキュメントローダー(PyPdf、Tesseract OCRなど)を使ってドキュメントを読み込む。
  2. 撤退契約の定義Pydanticモデルを使用して、抽出するフィールドを指定し、カスタム抽出契約を定義します。
  3. 抽出器の初期化Extractor イ ン ス タ ン ス を作成 し 、 文書 ロ ーダ と LLM モデルを読み込みます。
  4. データ抽出コール 抜粋 メソッドはドキュメントからデータを抽出し、契約によって定義されたフィールドに基づいた結果を返します。
  5. カテゴリー別書類カスタム分類ポリシーを使用して文書または文書の一部を分類するには、次のコマンドを呼び出します。 分類する メソッドを使って分類した。

以上のステップにより、ユーザーは様々なフォーマットの文書から効率的にデータを抽出・分類し、文書処理フローを最適化することができる。

無断転載を禁じます:チーフAIシェアリングサークル " ExtractThinker: ドキュメントを構造化データに抽出・分類し、ドキュメント処理プロセスを最適化します。

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語