はじめに
Suryaは、90以上の言語のテキスト認識をサポートする、オープンソースの多言語文書OCRツールキットです。行単位のテキスト検出だけでなく、レイアウト分析、読み順検出、表認識も可能です。Suryaの性能は、PDF、画像、Word文書、PPTなど、さまざまな種類の文書に対して、クラウドベースのサービスに匹敵します。このツールキットは、包括的な文書解析ソリューションをユーザーに提供するように設計されています。
ホスティング API: https://www.datalab.to/
PDF、画像、Word文書、PowerPoint用
機能一覧
- OCR:90以上の言語でテキスト認識
- 行単位のテキスト検出:文書内の各行のテキストの位置を自動的に識別します。
- レイアウト分析:文書内の表、画像、見出し、その他の要素の検出
- 読み順検出:文書内の読み順を特定する
- テーブル認識:テーブルの行と列の検出
ヘルプの使用
設置プロセス
- Python 3.9+とPyTorchがインストールされていることを確認してください。
- MacやGPUマシンを使用していない場合は、まずCPU版のトーチをインストールする必要があるかもしれません。
- 以下のコマンドを使用して、スーリヤをインストールする:
pip install surya-ocr
- Surya を初めて実行するとき、モデルの重みは自動的にダウンロードされます。
使用プロセス
- チェックと設定
surya/settings.py
の設定を環境変数で上書きすることができる。 - スーリヤは自動的にトーチデバイスを検出しますが、手動で上書きすることもできます。例
TORCH_DEVICE=cuda
- OCRアプリケーションを実行するには、次のコマンドを使用します:
python run_ocr_app.py
- 文書を処理する際、テキスト検出、レイアウト分析など、さまざまな機能モジュールから選択できます。
機能 操作の流れ
- OCR機能::
- ドキュメント(PDF、画像など)を読み込む。
- 言語を選択する(90以上の言語に対応しています)。
- OCR認識を実行し、テキスト内容を抽出する。
- 行ごとのテキスト検出::
- ドキュメントを読み込む。
- 行ごとにテキスト検出を実行し、テキストの各行の位置を取得する。
- テスト結果をエクスポートする。
- レイアウト分析::
- ドキュメントを読み込む。
- レイアウト分析を実行し、文書内の表、画像、見出しなどの要素を検出します。
- 分析結果をエクスポートする。
- リーディング・シークエンス・テスト::
- ドキュメントを読み込む。
- 読み順検出を実行し、文書内の読み順を特定する。
- テスト結果をエクスポートする。
- フォーム認識::
- ドキュメントを読み込む。
- テーブル認識を実行して、テーブルの行と列を検出する。
- 認識結果をエクスポートします。
Suryaは豊富な文書解析機能を提供し、ユーザーは必要に応じてさまざまな機能モジュールを選択して操作できます。詳細な操作手順や設定方法については、公式ドキュメントやサンプルコードを参照してください。