はじめに
MinerUは、上海人工知能研究所のOpenDataLabチームによって開発されたオープンソースのデータ抽出ツールで、複雑なPDF文書、ウェブページ、電子ブックからコンテンツを効率的に抽出することに焦点を当てている。MinerUは、画像、数式、表、その他の要素を含むマルチモーダルPDFドキュメントを分析しやすいMarkdown形式に変換することができ、AIコーパス作成の効率を大幅に向上させます。MinerUは、Magic-PDFとMagic-Docという2つの主要コンポーネントで構成されており、それぞれPDFドキュメントとWebページ、電子書籍を処理するために使用されます。このツールはクロスプラットフォーム操作をサポートし、Windows、Linux、macOSシステムと互換性があります。
MinerUオンライン体験 モデルスコープ ハグハグフェイス
機能一覧
- PDFからヘッダー、フッター、脚注、ページ番号を自動削除
- 見出し、段落、リストなど、元の文書の構造や書式を保持します。
- ドキュメント内の画像や表をMarkdownフォーマットに変換する
- PDF内の数式をLaTeX形式に変換
- Windows、Linux、macOS OSに対応
- ウェブページや電子ブックからのコンテンツ抽出をサポート
ヘルプの使用
設置プロセス
- 環境準備::
- Python 3.9以降がシステムにインストールされていることを確認してください。
- 依存関係の衝突を避けるため、仮想環境(venvやcondaなど)を推奨する。
- 依存関係のインストール::
- condaを使って仮想環境を作る:
conda create -n MinerU python=3.10 conda MinerUをアクティブにする
- またはvenvを使う:
python -m venv MinerU ソース MinerU/bin/activate LinuxまたはmacOSの# MinerUScriptsactivate Windowsの#
- condaを使って仮想環境を作る:
- Magic-PDFをインストールする::
- 依存パッケージ、特に detectron2 をコンパイルしてインストールします。以下のコマンドを使用して、コンパイル済みのdetectron2パッケージをインストールします(Python 3.10のみ):
pip install detectron2 --extra-index-url https://wheels.myhloli.com
- Magic-PDFのフル機能パッケージをインストールしてください:
pip install magic-pdf[full]==0.6.2b1
- 依存パッケージ、特に detectron2 をコンパイルしてインストールします。以下のコマンドを使用して、コンパイル済みのdetectron2パッケージをインストールします(Python 3.10のみ):
- モデルウェイトファイルのダウンロード::
- プロジェクト・ドキュメントの指示に従ってモデルの重みファイルをダウンロードし、十分なディスク容量のあるディレクトリ(できればSSD)に移動する。
- Magic-PDFの設定::
- magic-pdf.template.json設定ファイルをリポジトリのルートディレクトリから作業ディレクトリにコピーし、magic-pdf.jsonにリネームします:
cp magic-pdf.template.json ~/magic-pdf.json
- magic-pdf.jsonファイルの "models-dir "を、モデルの重みがあるディレクトリを指すように設定する:
{ "models-dir": "/tmp/models" }
- magic-pdf.template.json設定ファイルをリポジトリのルートディレクトリから作業ディレクトリにコピーし、magic-pdf.jsonにリネームします:
- アクセラレーション設定(必要な場合)::
- 利用可能なNvidia GPUを持っているか、Apple Siliconを搭載したMacを使っている場合は、CUDAまたはMPSをアクセラレーションに使うことができます。CUDAの場合は、CUDAのバージョンに対応するバージョンのPyTorchをインストールしてください:
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
- アクセラレーションを有効にするために、magic-pdf.json設定ファイルの "device-mode "の値を変更する。
- 利用可能なNvidia GPUを持っているか、Apple Siliconを搭載したMacを使っている場合は、CUDAまたはMPSをアクセラレーションに使うことができます。CUDAの場合は、CUDAのバージョンに対応するバージョンのPyTorchをインストールしてください:
Magic-PDFを使う
コマンドラインからMagic-PDFを使用する:
magic-pdf pdf-command --pdf "pdf_path" --inside_model 真の
これは指定されたPDFファイルを処理し、結果のMarkdownファイルを/tmp/magic-pdfディレクトリに保存します。
マジックドックの使用
Magic-Docのインストールと設定プロセスはMagic-PDFと似ていますが、具体的なコマンドや設定の詳細は異なる場合があります。詳細はプロジェクトのドキュメントを参照してください。