AIパーソナル・ラーニング
と実践的なガイダンス

MinerU: PDFドキュメントの抽出とマルチモーダルMarkdownフォーマットへの変換、電子書籍OCRスキャンのサポート

はじめに

MinerUは、上海人工知能研究所のOpenDataLabチームによって開発されたオープンソースのデータ抽出ツールで、複雑なPDF文書、ウェブページ、電子ブックからコンテンツを効率的に抽出することに焦点を当てている。MinerUは、画像、数式、表、その他の要素を含むマルチモーダルPDFドキュメントを分析しやすいMarkdown形式に変換することができ、AIコーパス作成の効率を大幅に向上させます。MinerUは、Magic-PDFとMagic-Docという2つの主要コンポーネントで構成されており、それぞれPDFドキュメントとWebページ、電子書籍を処理するために使用されます。このツールはクロスプラットフォーム操作をサポートし、Windows、Linux、macOSシステムと互換性があります。

MinerUオンライン体験 モデルスコープ ハグハグフェイス


 

MinerU: PDFドキュメントの抽出とマルチモーダルMarkdownフォーマットへの変換、電子書籍OCRスキャンのサポート

 

機能一覧

  • PDFからヘッダー、フッター、脚注、ページ番号を自動削除
  • 見出し、段落、リストなど、元の文書の構造や書式を保持します。
  • ドキュメント内の画像や表をMarkdownフォーマットに変換する
  • PDF内の数式をLaTeX形式に変換
  • Windows、Linux、macOS OSに対応
  • ウェブページや電子ブックからのコンテンツ抽出をサポート

 

ヘルプの使用

設置プロセス

  1. 環境準備::
    • Python 3.9以降がシステムにインストールされていることを確認してください。
    • 依存関係の衝突を避けるため、仮想環境(venvやcondaなど)を推奨する。
  2. 依存関係のインストール::
    • condaを使って仮想環境を作る:
      conda create -n MinerU python=3.10
      conda MinerUをアクティブにする
      
    • またはvenvを使う:
      python -m venv MinerU
      ソース MinerU/bin/activate  LinuxまたはmacOSの#
      MinerUScriptsactivate  Windowsの#
      
  3. Magic-PDFをインストールする::
    • 依存パッケージ、特に detectron2 をコンパイルしてインストールします。以下のコマンドを使用して、コンパイル済みのdetectron2パッケージをインストールします(Python 3.10のみ):
      pip install detectron2 --extra-index-url https://wheels.myhloli.com
      
    • Magic-PDFのフル機能パッケージをインストールしてください:
      pip install magic-pdf[full]==0.6.2b1
      
  4. モデルウェイトファイルのダウンロード::
    • プロジェクト・ドキュメントの指示に従ってモデルの重みファイルをダウンロードし、十分なディスク容量のあるディレクトリ(できればSSD)に移動する。
  5. Magic-PDFの設定::
    • magic-pdf.template.json設定ファイルをリポジトリのルートディレクトリから作業ディレクトリにコピーし、magic-pdf.jsonにリネームします:
      cp magic-pdf.template.json ~/magic-pdf.json
      
    • magic-pdf.jsonファイルの "models-dir "を、モデルの重みがあるディレクトリを指すように設定する:
      {
        "models-dir": "/tmp/models"
      }
      
  6. アクセラレーション設定(必要な場合)::
    • 利用可能なNvidia GPUを持っているか、Apple Siliconを搭載したMacを使っている場合は、CUDAまたはMPSをアクセラレーションに使うことができます。CUDAの場合は、CUDAのバージョンに対応するバージョンのPyTorchをインストールしてください:
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
      
    • アクセラレーションを有効にするために、magic-pdf.json設定ファイルの "device-mode "の値を変更する。

Magic-PDFを使う

コマンドラインからMagic-PDFを使用する:

magic-pdf pdf-command --pdf "pdf_path" --inside_model 真の

これは指定されたPDFファイルを処理し、結果のMarkdownファイルを/tmp/magic-pdfディレクトリに保存します。

マジックドックの使用

Magic-Docのインストールと設定プロセスはMagic-PDFと似ていますが、具体的なコマンドや設定の詳細は異なる場合があります。詳細はプロジェクトのドキュメントを参照してください。

AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " MinerU: PDFドキュメントの抽出とマルチモーダルMarkdownフォーマットへの変換、電子書籍OCRスキャンのサポート

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語