AIパーソナル・ラーニング
と実践的なガイダンス

Marker:PDFをMarkdownに素早く変換するオープンソースツール

はじめに

Markerは、PDFファイルを素早く正確にMarkdown形式に変換するために設計された、ディープラーニングベースの文書処理ツールです。ヘッダーやフッターなどの冗長なコンテンツの削除、表やコードブロックのフォーマット、画像の抽出と保存が可能です。また、ほとんどの数式をLaTeX形式に変換し、GPU、CPU、MPSでの実行をサポートします。

 


Marker:PDFをMarkdownに素早く変換するオープンソースツール

 

機能一覧

  • PDFファイルをMarkdown形式に変換
  • 書籍や科学論文を含む複数のドキュメントタイプをサポート
  • ヘッダーやフッターなどの余分なコンテンツを削除する。
  • テーブルとコードブロックの書式設定
  • 画像の抽出と保存
  • ほとんどの方程式をLaTeX形式に変換
  • GPU、CPU、MPS動作をサポート

 

 

ヘルプの使用

設置プロセス

  1. 依存関係のインストールPython 3.6以上がインストールされ、以下の依存関係がインストールされていることを確認してください:
    pip install marker-pdf
    
  2. 実行例::
    marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10
    

 

使用ガイドライン

 

個々のファイルを変換する

marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10
  • ---バッチ倍率 は、VRAM に余裕がある場合、デフォルトのバッチサイズの倍数です。数値が大きいほど多くの VRAM を使用しますが、処理速度は速くなります。デフォルトのバッチサイズには約 3GB の VRAM が必要です。
  • --最大ページ数 は処理する最大ページ数です。この項目を省略すると、文書全体が変換されます。
  • --ラング は、OCRに使用する文書言語のコンマ区切りリスト(オプショナル)です。デフォルトではオプショナルですが、tesseractを使用する場合は指定する必要があります。
  • --ocr_all_pages このパラメータまたは環境変数 `OCR_ALL_PAGES` が真であれば、OCRは強制されます。

サポートされているSurya OCR言語の一覧は、[ ] にあります。以下はが見つかりました。さらに多くの言語が必要な場合は、サポートされている言語のどれでも使うことができます。 OCR_ENGINE に設定する。 ocrmypdf.OCRが必要なければ、マーカーはどんな言語にも対応できる。

 

複数のファイルを変換する

marker /path/to/input/folder /path/to/output/folder --workers 4 --max 10 --min_length 10000
  • --労働者 は同時に変換されるPDFの数です。デフォルト設定は1ですが、CPU/GPU使用量の増加と引き換えにスループットを上げるためにこの値を増やすことができます。各ワーカープロセスは、ピーク時に5GB、平均で3.5GBのVRAMを使用します。
  • --マックス は変換するPDFの最大数です。この項目を省略すると、フォルダ内のすべてのPDFが変換されます。
  • --最小長 は、PDFから抽出される文字数の最小値で、この値以上のPDFのみが処理の対象となります。多くのPDFを処理する場合は、画像中心のPDFのOCR(処理が遅くなる)を避けるために、この値を設定することをお勧めします。
  • ---メタデータ・ファイル は、PDFに関するメタデータを含むオプションのJSONファイルパスです。提供された場合、このファイルは各PDFの言語を設定するために使用されます。言語の設定は、Surya(デフォルト)ではオプションですが、Tesseractでは必須です。フォーマットは以下の通りです:
{
"pdf1.pdf": {"languages": ["英語"]}、{
"pdf2.pdf": {"languages": ["Spanish", "Russian"]}, ...
...
}

言語名またはコードのいずれかを使用できます。正確なコードはOCRエンジンに依存します。Suryaコードの完全なリストについては、[ ]を参照してください。以下は]、テッセラクトについては[以下は]

AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " Marker:PDFをMarkdownに素早く変換するオープンソースツール

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語