はじめに
AI-reads-books-page-by-pageは、Pythonに基づいて開発されたインテリジェントなPDFブック分析ツールであり、PDFブックのページごとの分析を自動化し、重要な知識ポイントを抽出し、指定されたページ間隔の後に段階ごとの要約を生成することができます。このプロジェクトでは、AI技術を利用してインテリジェントな内容理解と要約生成を実現し、ユーザーが書籍の核心的な内容を素早く把握できるよう支援する。システムにはインテリジェントなフィルタリング機能があり、カタログや索引ページを自動的にスキップすることができる。また、ブレークポイントの継続をサポートしており、最後の分析位置から処理を継続することができる。プロジェクト出力は、読みやすく共有しやすいMarkdown形式を採用し、分析結果が失われないように知識ベースの永続的な保存をサポートしています。
機能一覧
- PDFブック分析と知識抽出の自動化
- AIによるコンテンツ理解と要約生成
- インターバル・ベースのマイルストーン進捗サマリー
- 永続的知識ベースリポジトリシステム
- Markdown形式のサマリー出力
- 視認性を高めるカラー端子出力
- 既存の知識ベースのブレークポイント読み込みをサポート
- 設定可能な分析間隔とテストモード
- インテリジェント・コンテンツ・フィルタリング(目次や索引ページなどを自動的にスキップ)
- 規定出力カタログ構造管理
- JSON形式の知識ベース・ストレージ
- カスタムAIモデルの選択をサポート
ヘルプの使用
1.環境準備
- まず、システムにPython環境がインストールされていることを確認する。
- プロジェクトをローカルにクローンする:
git clone https://github.com/echohive42/AI-reads-books-page-by-page cd AI-reads-books-page-by-page
- 依存パッケージをインストールします:
pip install -r requirements.txt
2.基本構成
使用する前に、以下の主要パラメータを設定する必要があります:
- プ ロ ジ ェ ク ト のルー ト デ ィ レ ク ト リ に、 解析す る PDF フ ァ イ ルを配置 し ます。
- 見せる
read_books.py
ファイルで、以下のコンフィギュレーションを変更する:PDF_NAME
PDFファイルの名前を設定します。分析間隔
解析間隔(ページ数)の設定テストページ
テストページ数の設定(オプション)モデル
ページ処理のためのAIモデルの選択分析モデル
分析生成のためのAIモデルの選択
3.カタログ構造の説明
プログラムは自動的に以下のようなディレクトリ構造を作成する:
book_analysis/knowledge_bases/書籍の分析
JSON形式でのナレッジベースファイルの保存book_analysis/summaries/(ブック・アナリシス/サマリー/サマリー
要約ファイルをMarkdown形式で保存ブック_アナリシス/pdfs/
PDFファイルのコピーの保存
4.プログラムの運営
python read_books.py
5.高度な機能の使用説明
- インターバル分析コントロール
- セットアップ
ANALYSIS_INTERVAL = なし
クローズ可能なインターバルの概要 - 特定の値(例:20)を設定すると、処理された20ページごとに要約が生成される。
- セットアップ
- テストパターン
- セットアップ
TEST_PAGES = なし
書籍全体の取り扱い - 特定のページ数を設定することで、部分的なテストが可能
- セットアップ
- 休み明け
- プログラムは自動的に処理の進捗状況を保存します。
- プログラムを再開する場合は、最後に処理した位置から続行します。
- 出力ファイルの管理
- ナレッジポイントはJSONファイルに保存される
- 要約文書はMarkdown形式
- ファイル名にはバージョン管理のためのタイムスタンプが含まれる
- カスタム分析
- 調整可能なAIモデル・パラメーター
- 分析の深さと方法を設定するためのサポート
- カスタマイズ可能な出力フォーマットと保存場所
6.注意事項
- PDFファイルが暗号化や破損を避けるために正しくフォーマットされていることを確認します。
- 大きなPDFを処理する場合は、小規模なテストをお勧めします。
- ナレッジベース文書の定期的なバックアップ
- 分析間隔を実際のニーズに合わせる
- システムリソースの使用状況を監視する