DeepOCR - DeepSeek-OCRモデルに基づくオープンソース・レプリカ・プロジェクト

28.4K 00

DeepOCRとは

DeepOCRはオープンソースのレプリケーション・プロジェクトであり、次のような機能を実装している。ディープシーク-OCR システムのコア・アーキテクチャは、光学圧縮技術によってテキスト情報を効率的に処理する。コアとなるのはDeepEncoderで、SAMベース（高解像度画像を処理する）、16×畳み込み圧縮器（画像サイズを縮小する）、16×畳み込み圧縮器（画像サイズを縮小する）、16×畳み込み圧縮器（画像サイズを縮小する）から構成される。トークン DeepOCRは2段階の学習プロセスを採用している：第1段階では、視覚言語アライメントのためにLLaVA-CC3Mデータセットを使用する。この設計により、高解像度の処理能力を維持しながら、起動メモリとトークン数を大幅に削減できる。DeepOCRは2段階の学習プロセスを採用しており、第1段階ではLLaVA-CC3Mデータセットを視覚言語アライメント学習に使用し、第2段階では olmOCR OCRに特化した事前学習をデータセットに対して行う。この学習アプローチにより、DeepOCRはOmniDocBenchおよびolmOCRベンチマークにおいて、特に英文テキスト認識およびテーブル構文解析タスクで良好な結果を示し、光学圧縮の有効性が検証された。

DeepOCRの特徴

光圧縮テキスト情報を画像としてレンダリングし、SAMやCLIPなどのビジュアルコーダーで処理することで効率的に圧縮。
高解像度処理1,024×1,024およびそれ以上の解像度の画像入力をサポートし、ウィンドウ・アテンション・メカニズムと畳み込み圧縮技術により、活性化メモリを効率的に管理します。
マルチモーダルフュージョンSAMの局所的特徴量とCLIPの大域的意味的特徴量をスプライシングして2048次元の融合特徴量を生成し、下流のタスクに豊富な情報を提供する。
二段階トレーニングこのモデルは、第一段階で視覚-言語アライメントのために訓練され、第二段階でOCRタスクのために事前訓練され、モデルがテキスト認識と文書構文解析タスクで良好に動作することを保証する。
低消費電力DeepEncoder (SAM + CLIP)をフリーズさせることで、グラフィックス・メモリ要件が大幅に削減され、限られたGPUリソース（例えば2×H200）でモデルの学習を完了することができます。
オープンソース実装VILAフレームワークをベースとした完全なオープンソースで、光コンテキスト圧縮メカニズムを研究するためのアクセス可能なプラットフォームを研究コミュニティに提供します。
ベンチマーキングこのモデルの性能はOmniDocBenchとolmOCRベンチマークで検証され、特に英文テキスト認識とテーブル構文解析のタスクで高い性能を示した。

DeepOCRの主な利点

効率的な圧縮::テキストを画像としてレンダリングし、ビジュアル・エンコーダを使って処理する光学圧縮では、テキスト・トークンの数を7～20分の1に大幅に減らすことができる。これにより、このモデルは長いテキストをより効率的に処理できるようになり、必要な計算リソースが削減される。
高解像度処理能力::高解像度の入力（1024×1024など）をサポートし、ウィンドウ・アテンション・メカニズム（SAM）と畳み込み圧縮技術により、メモリ爆発を回避するために活性化メモリを効率的に管理する。これにより、DeepOCRは複雑な文書レイアウトや高解像度画像を扱うことができる。
マルチモーダルフュージョン::SAMの局所的特徴をCLIPの大域的意味的特徴と融合し、2048次元の豊富な特徴を生成する。このマルチモーダルな融合は、下流のタスクにより包括的な情報を提供し、モデルのパフォーマンスを向上させる。
低消費電力::トレーニングプロセス中、DeepEncoder (SAM + CLIP)はフリーズし、必要なグラフィックメモリを劇的に削減します。これにより、モデルは限られたGPUリソース（例えば2×H200）でトレーニングを完了することができ、ハードウェアの敷居が低くなり、中小規模のチームに適しています。

DeepOCRの公式サイトとは

プロジェクトのウェブサイト:: https://pkulium.github.io/DeepOCR_website/
Githubリポジトリ:: https://github.com/pkulium/DeepOCR

DeepOCRの対象者

文書処理とOCRの開発者::長いテキストや複雑な文書レイアウトは効率的に処理する必要があり、DeepOCRの光学圧縮と高解像度処理機能は、文書の解析効率を大幅に向上させることができます。
中小規模のチームや独立系開発者::DeepOCRの低コンピュータフレンドリーな性質は、限られたハードウェアリソースでの実行に適しており、開発の敷居を低くしている。
オープンソースコミュニティの貢献者::オープンソースコミュニティのメンバーは、技術を進歩させるためにコードの貢献、改良、拡張に参加することができる。
革新的技術に関心のある学術研究者::私たちは、画像理解やUI要素の検出など、さまざまな分野での光学圧縮の応用を模索していきたいと考えています。
効率的なテキスト処理を必要とする企業や組織::DeepOCRの効率的な圧縮・処理機能を活用することで、社内の文書処理を最適化し、作業効率を向上させることができます。