PaddleOCR-VL - 百度オープンソース超軽量視覚言語モデル

堆友AI

PaddleOCR-VLとは?

PaddleOCR-VLはBaiduのオープンソースの超軽量視覚言語モデルで、文書解析シナリオ用に最適化されています。動的な高解像度視覚コーダーと軽量なERNIE言語モデルを融合させることで、高精度を維持しながら計算オーバーヘッドを大幅に削減し、パラメータはわずか0.9Bです。109の言語をサポートし、テキスト、表、数式、グラフなどの複雑な要素を正確に識別し、人間の読書習慣に沿ったレイアウト構造を復元することができます。権威あるベンチマークOmniDocBench v1.5において、このモデルは92.6ポイントを獲得し、総合性能で世界1位を獲得しました。テキスト編集距離(0.035)、数式認識(CDM 91.43)、数式処理(TEDS 93.52)などのコア指標でSOTAレベルに達し、GPT-4oなどの主流のマルチモーダルモデルを凌駕しています。

PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VLの特徴

  • 極めて軽量で高性能パラメータはわずか0.9Bで、通常のCPUで動作し、ブラウザのプラグインレベルのデプロイをサポートし、類似のモデルよりも推論が大幅に高速です(MinerU2.5よりも14.2%高速、dots.ocrよりも253.01%高速)。
  • 多元素精密分析テキスト、表、数式、グラフなどの複雑な要素のきめ細かな認識をサポートします。権威ある評価では、テキスト編集距離はわずか0.035、数式認識CDMは91.43、表TEDSは93.52に達し、いずれも業界の最適レベルに達しています。
  • 多言語および複雑なシナリオへの適応同社は109の言語(ロシア語やアラビア語などの特殊な文字体系を含む)をカバーし、手書き、歴史的文書、縦書きのテキスト(中国語の縦書きなど)を得意としており、グローバル化した文書処理のニーズに適応している。
  • インテリジェントなレイアウト解析と読み取り順序の復元2段階のアーキテクチャ(PP-DocLayoutV2レイアウト検出+PaddleOCR-VL-0.9B認識)により、読書ロジックを自動的に予測し、読書順序の誤差はわずか0.043で、人間の読書習慣を正確に復元する。
  • オープンソースと実用上の利点完全なオープンソースでデモを提供し、請求書認識や学術論文の解析などで優れたパフォーマンスを発揮します。

PaddleOCR-VLの主な利点

  • 極めて軽量で効率的な推論核となるモデルは 0.9B パラメータMinerU2.5は、通常のCPUで動作し、ブラウザのプラグインレベルの展開をサポートし、非常に少ないメモリフットプリントを持っています。シングルA100 GPUでMinerU2.5より推論速度が向上。 14.2%dots.ocrからアップグレード 253.01%計算オーバーヘッドが大幅に削減される。
  • 多言語および複雑な要素を正確に認識サポート 109ヶ国語中国語、英語、アラビア語、ロシア語、その他の特殊な文字体系をカバーし、テキスト、表、数式、グラフ、手書き文字、歴史的文書などの複雑な要素を正確に処理することができます。
  • 安定性と信頼性の高い2ステージ・アーキテクチャ採用 PP-DocLayoutV2 レイアウト検査 + PaddleOCR-VL-0.9B コンテンツ認識 相乗効果のあるフレームワークは、エンド・ツー・エンドモデルにありがちな錯覚やズレの問題を効果的に回避し、複雑なレイアウトでもより安定したパフォーマンスを発揮する。
  • 深いマルチモーダル融合とリアルな理解スルー NaViTダイナミック・レゾリューション・ビジュアル・エンコーダ とともに ERNIE-4.5-0.3B 言語モデル この組み合わせにより、文字認識から意味理解までの包括的なブレークスルーを達成し、複数段組版、数式、QRコードなどの特殊要素をインテリジェントに処理する。
  • 権威あるレビューでトップクラスのパフォーマンスその総合的な性能は、OmniDocBench V1.5やその他の権威あるリストにおいて、Gemini-2.5 ProやGPT-4oのような巨大なマルチモーダルモデルや、dots.ocrやMinerUのような垂直領域モデルを凌ぐ世界No.1にランクされている。

PaddleOCR-VLの公式ウェブサイトは?

  • プロジェクトのウェブサイト:: https://ernie.baidu.com/blog/zh/posts/paddleocr-vl/
  • HuggingFaceモデルライブラリ:: https://huggingface.co/PaddlePaddle/PaddleOCR-VL
  • arXivテクニカルペーパー:: https://arxiv.org/pdf/2510.14528
  • オンライン体験デモ:: https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo
  • オフィシャル・エクスペリエンス・アドレス:: https://aistudio.baidu.com/application/detail/98365

PaddleOCR-VLは誰のためのものですか?

  • 開発者&エンジニアOCR機能を統合する必要のあるソフトウェア開発者、特にリソースに制約のあるシナリオ(例:ブラウザのプラグイン、モバイルアプリケーション)やオープンソースコミュニティのコラボレーションに適しています。
  • エンタープライズIT&デジタルチーム金融、小売、製造業など、自動化されたプロセス(契約審査、在庫管理など)を構築するために大量の文書を扱う企業。
  • 研究者と教育者文献のデジタル化、原稿の書き起こし、教材の解析など。
  • 政府・公益事業政府公文書館、公共サービス機関、その他機密文書をコンプライアンスに準拠した効率的な方法で取り扱う必要のある団体。
  • 予算が限られている中小企業や新興企業高性能のOCR機能を必要としながらも、大規模なモデル計算にコストをかけられないプロジェクトチーム。
© 著作権表示

関連記事

コメントなし

コメントに参加するにはログインが必要です!
今すぐログイン
なし
コメントはありません