Dolphin - Wordpressオープンソース軽量文書解析ビッグモデル

50.3K 00

ドルフィンとは？

Dolphinはバイトジャンプオープンソースの軽量文書解析大規模モデルで、322Mのパラメータを持ち、サイズが小さく、実行速度が速いです。このモデルは2段階構文解析のアプローチに基づいており、ページレベルのレイアウト解析に基づいて、ドキュメント（タイトル、表、数式など）の要素を識別し、その後、解析の内容の各要素、モデルは、テキスト、数式、表、およびその他の要素の抽出をサポートし、JSON、Markdown、HTML形式などの出力をサポートしています。Dolphinは学術研究、商業オフィス、教育、技術開発などに適しています。Dolphinは学術論文、ビジネスレポート、技術文書などを効率的に処理し、文書のデジタル化と情報の抽出を支援し、オフィスの効率を向上させます。

ドルフィンの主な特徴

レイアウト分析文書内のタイトル、図表、脚注、その他の要素を正確に識別し、自然な読み順に基づいて要素の明確な順序を生成し、その後のコンテンツ解析の基礎を築きます。
内容抽出ドキュメントページを構造化されたJSONまたはMarkdownフォーマットにパースし、その後の処理やプレゼンテーションに使用します。
テキスト解析中国語、英語、その他多くの言語に対応し、ドキュメントからテキストコンテンツを正確に抽出します。
数式認識複雑なインラインやブロックレベルの数式を認識し、LaTeX形式で出力するため、学術文書や技術文書を簡単に扱うことができます。
表解析複雑な表構造の解析とセル内容の抽出をサポートし、さまざまなアプリケーション・シナリオのニーズを満たすHTML形式の表を生成。
軽量アーキテクチャこのモデルは参照番号322Mで、小型かつ高速で、リソースに制約のある機器や環境での使用に適している。
複数の入出力解析結果はJSON、Markdown、HTMLなどのフォーマットで出力でき、異なるシステムとの統合に便利です。

ドルフィン公式サイトアドレス

GitHubリポジトリ::https://github.com/bytedance/Dolphin
HuggingFaceモデルライブラリ::https://huggingface.co/ByteDance/Dolphin
arXivテクニカルペーパー::https://arxiv.org/pdf/2505.14059
オンライン体験デモ::http://115.190.42.15:8888/dolphin/

ドルフィンの使い方

オンライン体験デモドルフィンのオンライン体験デモのアドレスにアクセスすると、ユーザーは直接ドキュメント画像をアップロードして解析することができます。
GitHubリポジトリのデプロイ::
- クローン倉庫::

git clone https://github.com/bytedance/Dolphin.git
cd Dolphin

- 依存関係のインストール::

pip install -r requirements.txt

- 訓練済みモデルのダウンロードGitHubリポジトリの指示に従って、学習済みモデルファイルをダウンロードし、解凍します。
- 実行コードリポジトリにあるサンプルコードに従ってDolphinを実行してください：

from dolphin import DolphinParser

parser = DolphinParser(model_path="path/to/model")
result = parser.parse(image_path="path/to/document.jpg")
print(result)

ハグ顔モデルライブラリー::
- ハギング・フェイス・ライブラリのインストール::

pip install transformers

- 積載モデル::

from transformers import AutoModelForDocumentParsing, AutoFeatureExtractor

model_name = "ByteDance/Dolphin"
model = AutoModelForDocumentParsing.from_pretrained(model_name)
feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)

# 加载文档图像并进行预处理
image = feature_extractor(images="path/to/document.jpg", return_tensors="pt")

# 进行解析
outputs = model(**image)
# 处理输出结果

- 出力結果の処理モデルの出力形式（JSON、HTMLなど）に基づく解析結果のさらなる処理と使用。

ドルフィンの強み

軽量で効率的Dolphinはわずか322Mの大きさで、小さくて速いので、リソースに制約のある環境に適しています。
二段階構文解析アプローチ並列処理による効率と精度の向上。
強力な文書解析テキスト、表、数式、グラフ、その他の要素の解析をサポートし、複雑な文書構造をカバーします。
多言語サポート中国語、英語、その他の多言語テキストを正確に識別し、多言語文書処理のニーズに対応。
多様なインプットとアウトプットJSON、Markdown、HTMLなど、様々なドキュメントフォーマットの入力に対応し、簡単に統合できます。
オープンソースと使いやすさコードと事前に訓練されたモデルはオープンソースであり、開発者がすぐに開発を開始し、カスタマイズするための豊富なリソースを提供しています。
高性能文書解析タスクではGPT-4.1やMistral-OCRなどの主流モデルを凌駕し、表や式の認識に優れています。