はじめに
MegaParseは、Large Language Model (LLM)のデータ処理を最適化するために設計された、パワフルで多機能な文書解析ツールです。MegaParseは、テキスト、PDF、PowerPointプレゼンテーション、Word文書など、どのような文書でも簡単に処理でき、構文解析の過程で情報が失われることはありません。QuivrHQによって開発されたこのツールは、オープンソースで無料で使用でき、テキスト、PDF、PowerPoint、Excel、CSV、Word文書など、幅広いファイル形式に対して、高速で効率的なファイル解析サービスを提供するように設計されています。
機能一覧
- 多機能パーサーテキスト、PDF、PowerPoint、Excel、CSV、Word文書を含む複数のファイル形式をサポート。
- 情報が失われることはない解析の過程で情報が失われないようにする。
- 迅速かつ効率的スピードと効率性を重視した設計の核心。
- オープンソースで無料: オープンソースプロジェクト。
- マルチコンテンツ対応テーブル、目次、ヘッダー、フッター、画像の解析をサポート。
3つの解析モード。
- 非構造化パーサー
- ビジュアル・パーサー(MegaParseVision) - GPT-4Vやクロード3などのマルチモーダルモデルをサポート。
- LlamaParser - Llama Cloudによる解析機能の強化
パフォーマンス
ベンチマークテストによると、MegaParseVisionモードの類似度比は0.87であり、性能の面で最も優れた構文解析モードである。
主な使用例
- 様々な書類をLLMシステムにインポートして処理する必要がある。
- ドキュメントのフォーマットとコンテンツの整合性を維持する必要があるシナリオ
- バッチ文書処理タスク
このプロジェクトは現在活発に開発が進められており、次のような機能を追加する予定だ。
- テーブル・インスペクターの改善
- モジュール式ポストプロセッシングの追加
- 構造化出力サポートの追加
ヘルプの使用
設置プロセス
- MegaParseのインストール::
pip install megaparse
- APIキーの設定OpenAIまたは アンソロピック APIキーは
環境
ドキュメンテーション - 依存関係のインストール::
- 画像やPDFファイルの場合は
ポプラ
歌で応える四次元超立方体
. - Macをお使いの場合は、次のファイルもインストールする必要があります。
リブマジック
::libmagicをインストールする
- 画像やPDFファイルの場合は
MegaParseの使用
- メガパースのインポート::
from megaparse import MegaParse from langchain_openai import ChatOpenAI from megaparse.parser.unstructured_parser import UnstructuredParser parser = UnstructuredParser() megaparse = MegaParse(parser) response = megaparse.load("./test.pdf") print(response) megaparse.save("./test.md")
- メガパースビジョンの使用::
from megaparse import MegaParse from langchain_openai import ChatOpenAI from megaparse.parser.megaparse_vision import MegaParseVision model = ChatOpenAI(model="gpt-4o", api_key=os.getenv("OPENAI_API_KEY")) パーサー = MegaParseVision(model=model) megaparse = MegaParse(parser) response = megaparse.load("./test.pdf") print(response) megaparse.save("./test.md")
LlamaParseで成果を高める
- Llama Cloudアカウントを作成し、APIキーを取得する。.
- パーサーをLlamaParserに変更する。::
from megaparse import MegaParse from langchain_openai import ChatOpenAI from megaparse.parser.llama_parser import LlamaParser parser = LlamaParser(api_key=os.getenv("LLAMA_CLOUD_API_KEY")) megaparse = MegaParse(parser) response = megaparse.load("./test.pdf") print(response) megaparse.save("./test.md")
APIとして使用
- MakeFileの使用::
プロジェクトのルート・ディレクトリで実行する:開発する
- ドキュメントへのアクセス::
ブラウザを開いてアクセスするlocalhost:8000/docs
別のエンドポイント情報を表示します。