Vision Parse：視覚言語モデルを用いたPDFドキュメントのMarkdown形式へのインテリジェント変換

中国初のAI IDE インテリジェント・プログラミング・ソフトウェア 🚀体験への招待 Trae 中国語版ダウンロードDeepSeek-R1とDoubao-proは無制限で利用できる！

はじめに

Vision Parseは、最先端の視覚言語モデリング（Vision Language Models）技術を巧みに組み合わせ、PDFドキュメントを高品質なMarkdown形式のコンテンツにインテリジェントに変換する画期的なドキュメント処理ツールです。このツールは、OpenAI、LLama、Google Geminiなどの様々なトップ視覚言語モデルをサポートし、正確にドキュメント内のテキストとテーブルを抽出し、元のドキュメントの階層構造、スタイル、インデントを維持することができます。Vision Parseは、複数ページのPDF処理をサポートしているだけでなく、ローカルモデルの展開オプションを提供するので、ユーザーは、ドキュメントのセキュリティを確保するために、同じ時間にすることができますオフライン処理も可能です。そのシンプルなAPI設計により、開発者はわずか数行のコードで複雑な文書変換タスクを実現し、文書処理の効率と精度を大幅に向上させることができます。

機能一覧

インテリジェントなコンテンツ抽出: 高度な視覚言語モデルを使用して、テキストと表のコンテンツを正確に認識し、抽出します。
書式の完全性：文書の完全な階層構造、スタイル、インデントの書式を維持する。
マルチモデルのサポート：OpenAI、LLama、Gemini、その他の視覚言語モデルプロバイダと互換性があります。
PDFマルチページ処理：マルチページのPDFドキュメントをサポートし、処理のためにbase64エンコードされた画像に変換されます。
ローカルモデルのデプロイメント: Ollamaはドキュメントのセキュリティとオフラインでの使用のためにローカルモデルのデプロイメントをサポートしています。
カスタム設定：DPI、カラースペースなどのカスタムPDF処理パラメータをサポートします。
柔軟なAPI：シンプルで直感的なPython APIインターフェースを提供

ヘルプの使用

1.インストールの準備

基本的な条件

Python 3.9以上
ローカルモデルを使用するには、Ollamaをインストールする必要がある。
OpenAIまたはGoogle Geminiを使用するには、適切なAPIキーが必要です。

インストールの手順

pipを使ってベースパッケージをインストールする：

pip install vision-parse

必要に応じて追加の依存関係をインストールする：

OpenAIのサポート：pip install 'vision-parse[openai]'
ジェミニのサポートpip install 'vision-parse[ジェミニ]'

2.基本的な使い方

サンプルコード：

from vision_parse import VisionParser
# パーサーを初期化する
parser = VisionParser(
model_name="llama3.2-vision:11b", # use local model
temperature=0.4、
top_p=0.3、
extraction_complexity=False # より詳細な抽出結果を得るにはTrueに設定します。
)
# PDFファイルを変換
pdf_path = "your_document.pdf"
markdown_pages = parser.convert_pdf(pdf_path)
# 変換結果を処理
for i, page_content in enumerate(markdown_pages)：
print(f"\n--- Page {i+1} ---n{page_content}")

3.高度な設定

PDFのページ構成：

from vision_parse import VisionParser, PDFPageConfig
#はPDF処理設定を構成する
page_config = PDFPageConfig()
page_config = PDFPageConfig(
color_space="RGB", include_annotations=True
include_annotations=True、 preserve_transparency=フリー
preserve_transparency=False
)
# カスタム設定を使用してパーサーを初期化する
parser = VisionParser(
model_name="llama3.2-vision:11b"、
temperature=0.7、
top_p=0.4、
page_config=page_config
)

4.サポートモデル

Vision Parseは、主流の視覚言語モデルを幅広くサポートしています：

OpenAIモデル：gpt-4o、gpt-4o-mini
Google Geminiモデル：gemini-1.5-flash、gemini-2.0-flash-exp、gemini-1.5-pro
メタ・ラマとラバ（オラマを経て）：llava:13b、llava:34b、llama3.2-vision:11b、llama3.2-vision:70b

5.使用テクニック

適切なモデルの選択：ニーズに応じてローカルモデルかクラウドベースのサービスを選択する
パラメータの調整：出力の創造性と精度は、温度とtop_pのパラメータによって調整される。
抽出の複雑さ：複雑な文書の場合は、extract_complexity=Trueを設定することをお勧めします。
ローカルへの展開：機密文書では、ローカルへのモデル展開にOllamaを使用することを推奨しています。
PDFの設定：DPIとカラースペースと他のパラメータを調整するドキュメントの特性に応じて

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。