AIパーソナル・ラーニング
と実践的なガイダンス
豆包Marscode1

PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツール

はじめに

PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースのツールです。oomol-labによって開発され、電子書籍を整理するのが好きなユーザーのためにGitHubでホストされている。このツールはローカルのAIモデルを介して実行され、インターネット接続を必要としないため、プライバシーを保護し、操作を容易にする。スキャンした文書から本文を抽出し、ヘッダーやフッターなどの雑多な項目を削除して、きれいなMarkdownファイルを作成する。

PDF Craft:PDF扫描文件转Markdown的开源工具-1


 

機能一覧

  • ネイティブ処理をサポートし、スキャンした本のPDFをMarkdown形式に変換します。
  • 本文を抽出し、ヘッダー、フッター、ページ番号を自動的にフィルタリングします。
  • ページをまたいで文章を扱い、文章の一貫性を保つ。
  • Markdownファイルに埋め込まれたイラストや表のスクリーンショットをサポート。
  • AIを使ってページレイアウトを分析し、テキストを読む順番に整理する。
  • eBookファイルを生成するEPUBフォーマットへの拡張が可能。

 

ヘルプの使用

PDF Craftは、PDFからMarkdownへの書籍のスキャンに特化しています。ここでは、すぐに使い始めることができるように、インストールと使用方法の詳細な手順を説明します。

設置プロセス

  1. 環境を整える
    Python 3.8以上がインストールされたコンピューターが必要です。ハードディスクにAIモデルを保存するのに十分な容量があることを確認してください。
  2. ダウンロードコード
    ターミナルを開き、Clone Projectコマンドを入力する:
git clone https://github.com/oomol-lab/pdf-craft.git

そしてカタログを見る:

cd pdf-craft
  1. 依存関係のインストール
    以下のコマンドを入力して、必要なライブラリをインストールする:
pip install -r requirements.txt

GPUがあれば、CUDAサポートを追加できる:

pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
  1. モデルの入手
    初回実行時に、ツールはAIモデル(例:DocLayout-YOLO)を自動的にダウンロードします。ネットワークを開いたまま、モデルを <model_dir_path>(コードで設定可能)。

ワークフロー

マークダウンに変換

  1. PDFを準備する
    スキャンした本のPDFを以下のようなフォルダに入れます。 /path/to/pdf/book.pdf.
  2. 実行時変換
    ターミナルに以下のコードを入力する:
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
  • device="cpu"CPUで動作。GPUサポート device="cuda:0".
  • markdown_path出力Markdownファイルのパス。
  • image_dir保存図版カタログ
  1. 結果を見る
    終わったら /path/to/output.md 内容を確認するイラストは自動的に images フォルダー

注目の機能操作

  • テキスト抽出
    このツールはスキャンしたページを認識し、ヘッダーとフッターを削除し、本文だけを残します。ごちゃごちゃした部分を手作業で片付ける必要はありません。
  • クロスページ処理
    PDF Craftは、改ページによって文章が切れても、自動的に改ページをつなぎ、文章がスムーズに流れるようにします。
  • イラストの埋め込み
    スキャンされた書籍の画像や表はスクリーンショットされ、Markdownに埋め込まれます。 images フォルダーから探す。

チップ

  • PDFスキャンの画質は鮮明であるべきで、そうでない場合は認識が間違っている可能性がある。
  • 最初の実行はモデルをダウンロードし、その後はオフラインで利用できるようになる。
  • 遅い場合は、GPUアクセラレーションを試すか、ページ数を減らしてみてください。

 

アプリケーションシナリオ

  1. 古い本を整理する
    古い本をスキャンしたPDFをMarkdownに変換して編集したいことはありませんか?PDF Craftは、乱雑さを取り除き、クリーンなファイルを作成します。
  2. 研究データの変換
    学者はスキャンした論文をMarkdownに変換してメモを取る必要がある。このツールは、引用しやすいようにテキストと図版を保持します。
  3. 電子書籍制作
    スキャンしたPDFを編集可能なMarkdown文書にしたい。PDF Craftはシンプルなソリューションを提供します。

 

品質保証

  1. PDFのスキャンしかサポートしていないのですか?
    主にスキャンした書籍PDFに最適化されています。通常のテキストPDFも動作しますが、スキャンした文書ほどではないでしょう。
  2. 変換後の画像はどうすればいいですか?
    画像はスクリーンショットとして指定したフォルダに保存され、リンクは自動的にMarkdownに埋め込まれます。
  3. なぜ1本目が遅いのか?
    AIモデルをダウンロードする必要があるからだ。その後は速くなる。
無断転載を禁じます:チーフAIシェアリングサークル " PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツール
ja日本語