AIパーソナル・ラーニング
と実践的なガイダンス
サイバーナイフ用ドローイングミラー

OCRオープンソース・プロジェクト徹底調査:2025年に見逃せないトップ10

OCR技術とは、画像中のテキスト情報を編集・加工可能なテキストデータに変換する技術です。簡単に言えば、画像からテキストを認識し、抽出します。

次に、GitHubで☆の数が最も多い10のOCRオープンソースプロジェクトをレビューし、OCRツールを選ぶための徹底的なガイドを提供します。

01 GOT-OCR 2.0: エンドツーエンドのマルチモーダルOCRモデル

GOT-OCR 2.0 は、オープンソースのエンドツーエンドのマルチモーダルOCRモデルで、モデルサイズはわずか1.43GBです。 テキストを認識・抽出するだけでなく、以下の処理も行います。数学の公式、分子式、ダイアグラム、楽譜、幾何学図形など、OCR技術の応用範囲を大きく広げている。


モデルの特徴

  • マルチモーダルなサポート: 通常のテキストに加え、複雑なコンテンツも幅広く扱うことができる。
  • 軽量モデル: モデルのサイズはわずか1.43GBで、導入は簡単だ。
  • エンド・ツー・エンドの識別: 複雑な前処理や後処理は必要ない。

アドバンテージだ: GOT-OCR 2.0は、複雑なシナリオや多様なコンテンツを扱う上で明らかな利点があり、複数のタイプのドキュメントを扱う必要があるアプリケーションシナリオに適しています。

現在、GitHubで7.2Kスターを獲得している!

blank

オープンソースのアドレス:https://github.com/Ucas-HaoranWei/GOT-OCR2.0

02 InternVL:強力なオープンソースのマルチモーダルモデル

インターンVL は、OpenGVLabチームによって開発されたオープンソースのマルチモーダル・マクロモデルであり、GPT-4VとGPT-4Vに近い近似値を提供することを目的としている。 ジェミニ Proのような市販モデルの性能に代わるもの。

InternVLは、視覚的な大きなモデルに属していますが、アプリケーションのシーンは、OCRフィールドの垂直モデルではなく、画像の理解など、より広範であるが、それはシーンのテキストのOCR抽出と下位互換性を持つことができます。多くの優れたオープンソースのビジュアルモデルがありますが、この記事では、例としてInternVLに、それらすべてをリストアップしていません。

モデルの特徴

  • マルチモーダルな能力: 画像理解やビジュアルクイズなど、幅広いタスクをサポート。
  • 高性能: 市販モデルのパフォーマンス性能に迫る。
  • オープンソース・オープン: 開発者にとって、二次開発やカスタマイズに便利。

アドバンテージだ: InternVLは、視覚的なマクロモデルとして、複雑な画像の処理や画像内容の理解に優れており、OCRの基本的なニーズも満たしている。

これまでに7.2Kスターを獲得している。

blank

オープンソースのアドレス:https://github.com/OpenGVLab/InternVL

03 olmOCR: PDFドキュメントの構造化のエキスパート

olmOCR はAllenAIによって開発され、次のことに焦点を当てている。 PDF文書の線形化複雑なレイアウトのPDFを、大規模言語モデリング(LLM)トレーニングに適した構造化テキストに変換するツールキット。

その中心的な目的は、テキストとグラフィックの混在、複数カラムのレイアウトなどのPDFの問題を効率的に処理することによって首尾一貫したテキストデータを生成し、実世界のシナリオで文書を理解するLLMの能力を向上させることです。

技術的な詳細

  • レイアウト分析: PDF 内のテキスト、画像、表などのマルチカラムレイアウトを正確に認識します。
  • テキストの線形化: 複雑なレイアウトを、LLM処理に適したリニアテキストシーケンスに変換します。
  • コンテンツの再編成: 本文の一貫性を確保するために、ページをまたぐ、コラムをまたぐなどの問題を解決する。

アプリケーションのシナリオ:

  • 学術論文の分析: 論文から重要な情報を素早く抽出。
  • 法的文書処理: 契約書、判決文などの文書コンテンツの構造化抽出
  • 財務諸表分析: 財務データと主要指標の自動抽出。

最新のNVIDIA GPU(RTX4090、L40S、A100、H100でテスト)と20GB以上のGPU RAM、30GB以上のディスク容量が必要です。

これまでに9.8Kの★を獲得している!

blank   blank

オープンソースのアドレス:https://github.com/allenai/olmocr
オンラインデモ:https://olmocr.allenai.org/

04 ゼロックス:AI主導の構造化文書変換ツール

ゼロックス Omni-AIチームによって開発されたAI主導の文書抽出ツールで、PDF、画像、Docxなどの文書を構造化されたMarkdownファイルに変換します。

アドバンテージだ:

  • トレーニングは不要: 従来のOCRツールとは異なり、Zeroxはモデルを事前にトレーニングすることなく、複雑なレイアウトを処理することができる。
  • 構造化コンテンツの直接生成: ビジュアルモデル(GPT-4o-miniなど)に基づいてOCRを実装し、構造化コンテンツを直接生成する。
  • 論理構造を維持する: 学術論文の段組みレイアウト、技術文書のコードブロック、契約書フォーム、テスト用紙の数式などを認識し、整然としたMarkdownを生成する。
  • 従来のOCRとの比較 Zeroxは、レイアウト分析や表構造の削減などの従来のステップを省き、Markdownの結果を直接出力します。

現在10.3Kスターを獲得している!

写真

オープンソースアドレス:https://github.com/getomni-ai/zerox
体験アドレス:https://getomni.ai/ocr-demo

05 Surya:多言語テキストと複雑な文書構造の認識

スーリヤ 多言語テキストと複雑な文書構造の認識に重点を置き、特に表認識に精通。

キーワード:行レベルテキスト検出、レイアウト分析(表、画像、キャプションなどの検出)、読み順検出、表認識(行/列の検出)、LaTeX OCR

主な特徴

  1. 多言語サポート: 英語やスペイン語などの主流言語だけでなく、中国語、日本語、アラビア語などの複雑なスクリプトを含む90以上の言語をサポートしており、グローバル化したシナリオでの文書処理に適しています。
  2. 形状認識の最適化: テーブルの回転や複雑なレイアウトを含め、テーブルの行、列、セル構造を正確に識別することができ、現在主流のオープンソースモデル(Table Transformerなど)よりも優れたパフォーマンスを発揮します。
  3. 複雑な文書の解析: 文書内のタイトル、画像、段落やその他の要素を検出し、出力内容の混乱を避けるために、インテリジェントに読み上げ順序を判断することができます。

アプリケーションシナリオの例:

  • 多言語文書のデジタル化: 多国籍企業では、多言語による契約書や報告書などが扱われる。
  • 歴史的アーカイブのデジタル化: 複雑な表やレイアウトを含む歴史的文書を扱う。
  • 科学的データの抽出: 学術論文から表形式データを抽出。

SuryaはCPU/GPU操作をサポートし、バッチ処理と画像の前処理最適化(ノイズ除去、グレイスケーリングなど)によって認識速度を大幅に向上させ、企業レベルの文書デジタル化のニーズに対応します。

現在、GitHubで16.8Kスターを獲得している!

写真   写真

オープンソースのアドレス:https://github.com/VikParuchuri/surya

06 OCRmyPDF: スキャンしたPDFに検索可能なテキストレイヤーを追加する

このオープンソースのツールは、スキャンしたPDF文書(すなわち、PDFはすべての画像であり、テキスト内の画像をコピーすることはできません)検索可能な、コピー可能なテキストレイヤーを追加するために設計されています。

アプリケーションのシナリオ:

  • アーカイブのデジタル化: スキャンした紙文書を検索可能なPDFに変換します。
  • アクセシビリティ: 視覚障害者のためのアクセシブルなPDF文書。
  • 情報検索: 大量のスキャン文書から簡単に情報を探し出す。

アドバンテージだ:

  • 正確な識別: Tesseract OCRエンジンを使用して100以上の言語をサポート。
  • 画像の最適化: 傾いたページや回転した間違ったページを自動的に修正し、認識率を向上させます。
  • バッチ処理: マルチコアCPUアクセラレーションで数千ページのドキュメントを効率的に処理。

OCRmyPDFはスキャンされたPDFの処理において明確なアドバンテージがあり、インストールと使用が簡単で、Linux、Windows、macOS、Dockerと互換性があり、スキャンされた文書を手動で処理する必要がある他のツールよりも便利なソリューションを提供します。

現在、GitHubで20.7Kスターを獲得している!

OCRmyPDFは画像の下にOCRテキストレイヤーを埋め込むことができ、高精度のコピーと検索をサポートします。

写真

オープンソースアドレス:https://github.com/ocrmypdf/OCRmyPDF
アクセス・ドキュメント:https://ocrmypdf.readthedocs.io/en/latest/

07 マーカー:PDF、画像、その他のマルチフォーマット文書の変換

マーカー Vik Paruchuriによって開発された効率的な文書変換ツールで、PDF、画像、Office文書、EPUBフォーマットをMarkdown、JSON、HTMLに素早く変換することができます。

アドバンテージだ: マーカー 複雑なコンテンツ(表、数式、コードブロックなど)を高い精度と優れた処理速度で解析し、GPUアクセラレーションをサポートし、同等のクラウドサービス(Llamaparse、Mathpixなど)を凌駕します。

アプリケーション

  • 学術論文の変換: PDF論文をMarkdownに変換し、編集や引用を簡単に。
  • 技術文書の作成: コードやダイアグラムを含むドキュメントを、公開しやすいHTML形式に変換します。
  • データ抽出: テーブルやフォームのデータをJSON形式に抽出し、その後の処理を容易にします。

Markerは、大規模な言語モデル(Gemini、Ollamaなど)を呼び出して、ページ間のテーブルマージ、数式フォーマット、フォームデータ抽出などの結果を最適化することができる。

現在、GitHubで22.8Kスターを獲得している。

blank

オープンソースのアドレス:https://github.com/vikParuchuri/marker

08 EasyOCR: 多言語テキスト認識ツールのライブラリ

イージーオーシーアール JaidedAIによって開発されたオープンソースのOCRツールライブラリで、画像を入力すると、抽出されたテキスト、対応する場所の座標、信頼度を返す。

特徴

  • 多言語サポート: 80以上の言語と複数の文字体系(中国語、ラテン語、アラビア語など)をサポート。
  • すぐに使える: トレーニング済みのモデルを提供することで、追加トレーニングなしで迅速な導入が可能。
  • 柔軟な入力: 画像、バイトストリーム、URLなど複数の入力フォームをサポート。
  • シンプルなAPI: テキストの内容、位置、信頼度を簡潔なAPIで出力。
  • CPU/GPU対応: 動作環境はハードウェアの状況に応じて柔軟に選択できる。

モデルトレーニング: EasyOCRはPyTorchディープラーニングフレームワークをベースにしており、CRNN(Convolutional Recurrent Neural Network)モデル構造とCTC(Connectionist Temporal Classification)損失関数を組み合わせて学習に使用します。

アプリケーションのシナリオ:

  • 多言語文書認識: 複数の言語を含む文書を扱うのに最適です。
  • 自然なシーンのテキスト認識: 道路標識やナンバープレートなど、自然なシーンにある文字を認識するのに使える。
  • モバイルOCR: このモデルは軽量で、モバイルでの展開に適している。

EasyOCRは、多言語文書や自然なシーンテキストなどのOCRシナリオのために、開発者の使いやすさと産業グレードのアプリケーション要件を兼ね備えています。

現在、GitHubには26Kのスターがついている。

例   例2   例3

オープンソースアドレス:https://github.com/JaidedAI/EasyOCR
デモアドレス:https://www.jaided.ai/documentai/demo

09 Umi-OCR: インストールしてすぐに使えるオフラインOCRソフトウェア

これは、無料のオープンソース、オフラインOCRテキスト認識ソフトウェアであり、Windows 7 + x64およびLinux x64システムをサポートしています、ネットワークは必要ありません、ダウンロードしてローカルで実行します。

キーワード: ローカルソフトの解凍とオフライン実行; スクリーンショットOCR; バッチOCR;

アドバンテージだ:

  • オフラインで実行中: ユーザーのプライバシーを守るため、インターネット接続は必要ありません。
  • 使い方は簡単: 簡単な操作のためのグラフィカル・インターフェースを提供。
  • 機能が豊富だ: スクリーンショットOCR、バッチOCRや他の多くの機能をサポートしています。
  • これを他のオフライン・ツールと比較してみよう: インストールが簡単で、動作環境を設定する必要がない。

これまでのところ、30.8Kスターを獲得している。

1-タイトル-1.png   2-スクリーンショット-1.png   3バッチ-1.png

オープンソースのアドレス:https://github.com/hiroi-sora/Umi-OCR

10 テッセラクト:OCR分野の古代の神々

四次元超立方体 は、画像内のテキストを編集可能なテキストに変換する、強力で広く使用されているオープンソースのOCRエンジンです。

歴史的背景

  • 1985年から1994年にかけてヒューレット・パッカード研究所によって開発された。
  • 1996年以降にウィンドウズに移植された。
  • HPは2005年にオープンソース化した。
  • Googleがスポンサーで、オープンソースのOCRシステムとしてよく知られている。

技術的特徴:

  • ディープラーニング技術: 高度なディープラーニング技術(畳み込みニューラルネットワークなど)を使った文字認識は精度が高く、特に質の高いスキャン画像を扱った場合に優れた性能を発揮する。
  • 多言語サポート: 100以上の言語でテキストを認識。

他のエンジンと比べてみてください: Tesseractには長い歴史があり、活発なコミュニティがあり、ドキュメントも充実しているが、複雑なレイアウトや低品質の画像を扱うという点では、新興のOCRエンジンには劣るかもしれない。

Tesseract OCRのJavaScriptバージョン:Tesseract.jsもあるが、実際にテストした結果、JSバージョンは中国語をあまりサポートしていないことがわかった。

これまでにGitHubで65.3Kのスターを獲得している。

blank

オープンソースアドレス:https://github.com/tesseract-ocr/tesseract
オープンソースアドレス:https://github.com/naptha/tesseract.js

blank

無断転載を禁じます:チーフAIシェアリングサークル " OCRオープンソース・プロジェクト徹底調査:2025年に見逃せないトップ10
ja日本語