AIパーソナル・ラーニング
と実践的なガイダンス

Surya: プロフェッショナルな多言語ドキュメントOCRツール、オープンソース・ネイティブデプロイメント

はじめに

Suryaは、90以上の言語のテキスト認識をサポートする、オープンソースの多言語文書OCRツールキットです。行単位のテキスト検出だけでなく、レイアウト分析、読み順検出、表認識も可能です。Suryaの性能は、PDF、画像、Word文書、PPTなど、さまざまな種類の文書に対して、クラウドベースのサービスに匹敵します。このツールキットは、包括的な文書解析ソリューションをユーザーに提供するように設計されています。

ホスティング API: https://www.datalab.to/

PDF、画像、Word文書、PowerPoint用

Surya: プロフェッショナル多言語ドキュメントOCRツール-1


 

機能一覧

  • OCR:90以上の言語でテキスト認識
  • 行単位のテキスト検出:文書内の各行のテキストの位置を自動的に識別します。
  • レイアウト分析:文書内の表、画像、見出し、その他の要素の検出
  • 読み順検出:文書内の読み順を特定する
  • テーブル認識:テーブルの行と列の検出

 

ヘルプの使用

設置プロセス

  1. Python 3.9+とPyTorchがインストールされていることを確認してください。
  2. MacやGPUマシンを使用していない場合は、まずCPU版のトーチをインストールする必要があるかもしれません。
  3. 以下のコマンドを使用して、スーリヤをインストールする:
    pip install surya-ocr
    
  4. Surya を初めて実行するとき、モデルの重みは自動的にダウンロードされます。

使用プロセス

  1. チェックと設定surya/settings.pyの設定を環境変数で上書きすることができる。
  2. スーリヤは自動的にトーチデバイスを検出しますが、手動で上書きすることもできます。例
    TORCH_DEVICE=cuda
    
  3. OCRアプリケーションを実行するには、次のコマンドを使用します:
    python run_ocr_app.py
    
  4. 文書を処理する際、テキスト検出、レイアウト分析など、さまざまな機能モジュールから選択できます。

機能 操作の流れ

  1. OCR機能::
    • ドキュメント(PDF、画像など)を読み込む。
    • 言語を選択する(90以上の言語に対応しています)。
    • OCR認識を実行し、テキスト内容を抽出する。
  2. 行ごとのテキスト検出::
    • ドキュメントを読み込む。
    • 行ごとにテキスト検出を実行し、テキストの各行の位置を取得する。
    • テスト結果をエクスポートする。
  3. レイアウト分析::
    • ドキュメントを読み込む。
    • レイアウト分析を実行し、文書内の表、画像、見出しなどの要素を検出します。
    • 分析結果をエクスポートする。
  4. リーディング・シークエンス・テスト::
    • ドキュメントを読み込む。
    • 読み順検出を実行し、文書内の読み順を特定する。
    • テスト結果をエクスポートする。
  5. フォーム認識::
    • ドキュメントを読み込む。
    • テーブル認識を実行して、テーブルの行と列を検出する。
    • 認識結果をエクスポートします。

Suryaは豊富な文書解析機能を提供し、ユーザーは必要に応じてさまざまな機能モジュールを選択して操作できます。詳細な操作手順や設定方法については、公式ドキュメントやサンプルコードを参照してください。

無断転載を禁じます:チーフAIシェアリングサークル " Surya: プロフェッショナルな多言語ドキュメントOCRツール、オープンソース・ネイティブデプロイメント

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語