はじめに
PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースのツールです。oomol-labによって開発され、電子書籍を整理するのが好きなユーザーのためにGitHubでホストされている。このツールはローカルのAIモデルを介して実行され、インターネット接続を必要としないため、プライバシーを保護し、操作を容易にする。スキャンした文書から本文を抽出し、ヘッダーやフッターなどの雑多な項目を削除して、きれいなMarkdownファイルを作成する。
機能一覧
- ネイティブ処理をサポートし、スキャンした本のPDFをMarkdown形式に変換します。
- 本文を抽出し、ヘッダー、フッター、ページ番号を自動的にフィルタリングします。
- ページをまたいで文章を扱い、文章の一貫性を保つ。
- Markdownファイルに埋め込まれたイラストや表のスクリーンショットをサポート。
- AIを使ってページレイアウトを分析し、テキストを読む順番に整理する。
- eBookファイルを生成するEPUBフォーマットへの拡張が可能。
ヘルプの使用
PDF Craftは、PDFからMarkdownへの書籍のスキャンに特化しています。ここでは、すぐに使い始めることができるように、インストールと使用方法の詳細な手順を説明します。
設置プロセス
- 環境を整える
Python 3.8以上がインストールされたコンピューターが必要です。ハードディスクにAIモデルを保存するのに十分な容量があることを確認してください。 - ダウンロードコード
ターミナルを開き、Clone Projectコマンドを入力する:
git clone https://github.com/oomol-lab/pdf-craft.git
そしてカタログを見る:
cd pdf-craft
- 依存関係のインストール
以下のコマンドを入力して、必要なライブラリをインストールする:
pip install -r requirements.txt
GPUがあれば、CUDAサポートを追加できる:
pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
- モデルの入手
初回実行時に、ツールはAIモデル(例:DocLayout-YOLO)を自動的にダウンロードします。ネットワークを開いたまま、モデルを<model_dir_path>
(コードで設定可能)。
ワークフロー
マークダウンに変換
- PDFを準備する
スキャンした本のPDFを以下のようなフォルダに入れます。/path/to/pdf/book.pdf
. - 実行時変換
ターミナルに以下のコードを入力する:
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
device="cpu"
CPUで動作。GPUサポートdevice="cuda:0"
.markdown_path
出力Markdownファイルのパス。image_dir
保存図版カタログ
- 結果を見る
終わったら/path/to/output.md
内容を確認するイラストは自動的にimages
フォルダー
注目の機能操作
- テキスト抽出
このツールはスキャンしたページを認識し、ヘッダーとフッターを削除し、本文だけを残します。ごちゃごちゃした部分を手作業で片付ける必要はありません。 - クロスページ処理
PDF Craftは、改ページによって文章が切れても、自動的に改ページをつなぎ、文章がスムーズに流れるようにします。 - イラストの埋め込み
スキャンされた書籍の画像や表はスクリーンショットされ、Markdownに埋め込まれます。images
フォルダーから探す。
チップ
- PDFスキャンの画質は鮮明であるべきで、そうでない場合は認識が間違っている可能性がある。
- 最初の実行はモデルをダウンロードし、その後はオフラインで利用できるようになる。
- 遅い場合は、GPUアクセラレーションを試すか、ページ数を減らしてみてください。
アプリケーションシナリオ
- 古い本を整理する
古い本をスキャンしたPDFをMarkdownに変換して編集したいことはありませんか?PDF Craftは、乱雑さを取り除き、クリーンなファイルを作成します。 - 研究データの変換
学者はスキャンした論文をMarkdownに変換してメモを取る必要がある。このツールは、引用しやすいようにテキストと図版を保持します。 - 電子書籍制作
スキャンしたPDFを編集可能なMarkdown文書にしたい。PDF Craftはシンプルなソリューションを提供します。
品質保証
- PDFのスキャンしかサポートしていないのですか?
主にスキャンした書籍PDFに最適化されています。通常のテキストPDFも動作しますが、スキャンした文書ほどではないでしょう。 - 変換後の画像はどうすればいいですか?
画像はスクリーンショットとして指定したフォルダに保存され、リンクは自動的にMarkdownに埋め込まれます。 - なぜ1本目が遅いのか?
AIモデルをダウンロードする必要があるからだ。その後は速くなる。