はじめに
Paper Reviewerは、arXivの論文から包括的なレビューを生成し、ブログ記事にするために設計されたオープンソースプロジェクトです。このプロジェクトは、Hugging FaceのDaily Papersウェブサイトをサポートし、自動的にブログ記事を生成します。Pythonスクリプトcollect.pyとconvert.pyを使用することで、ユーザーは論文レビューを収集し、固定デザインのテンプレートブログ記事に変換することができます。
機能一覧
特徴 1、コンテンツ処理では、テキストコンテンツを読み取ることができ、グラフ、写真、論文のテーブルを抽出する2、限り、論文ID、完全に自動処理と生成、論文3のサポートバッチ処理、カスタマイズ、AI解析ツール、ブログテンプレートなどをサポートします。
- 総合的なレビューの生成:指定されたarXivの論文IDから詳細なレビューを生成する。
- ブログ記事への変換:生成されたレビューコンテンツを、固定されたデザインテンプレートに従ってブログ記事に変換します。
- 複数のAPIをサポート:オプションでUpstageと ジェミニ 画像と視覚情報を抽出するAPI。
- プロセスの自動化:スクリプトによって収集と変換プロセスを自動化し、手作業を減らす。
- 柔軟なコンフィギュレーション:ユーザーがニーズに応じて調整できるさまざまなコンフィギュレーション・オプションをサポート。
ヘルプの使用
設置プロセス
- 依存関係のインストール::
- プロジェクトに必要なPythonの依存関係をインストールするにはpipを使います:
pip install -r requirements.txt
- PDFを画像に変換するためにpopplerをインストールします:
- Ubuntuユーザーの場合は、以下のコマンドを使用する:
apt install poppler-utils
- macOSユーザーの方は、Homebrewを使ってインストールしてください:
brew install poppler
- Ubuntuユーザーの場合は、以下のコマンドを使用する:
- プロジェクトに必要なPythonの依存関係をインストールするにはpipを使います:
- 環境変数の設定::
- GEMINI_API_KEYを設定する(必須):
export GEMINI_API_KEY="your_gemini_api_key"
- オプションでUpstageとR2のAPIキーを設定します:
export UPSTAGE_API_KEY="your_upstage_api_key" export R2_ACCESS_KEY_ID="your_r2_access_key_id" export R2_SECRET_ACCESS_KEY="your_r2_secret_access_key" export R2_S3_ENDPOINT_URL="your_r2_s3_endpoint_url" export R2_DOMAIN_NAME="your_r2_domain_name"
- GEMINI_API_KEYを設定する(必須):
使用プロセス
- 査読論文の収集::
- collect.pyスクリプトを実行し、arXiv IDを指定して論文のレビューを生成します:
python collect.py --arxiv-id "your_arxiv_id" --stop-at-no-html
- 画像情報を抽出する必要がある場合は、--use-upstageオプションを使うことができる:
python collect.py --arxiv-id "your_arxiv_id" --use-upstage
- collect.pyスクリプトを実行し、arXiv IDを指定して論文のレビューを生成します:
- ブログ記事に変換::
- convert.pyスクリプトを実行して、収集したレビューをブログ記事に変換します:
python convert.py --arxiv-id "your_arxiv_id" --template "your_template_file"
- R2に画像をアップロードする必要がある場合は、--upload-images-r2オプションを使用できます:
python convert.py --arxiv-id "your_arxiv_id" --upload-images-r2
- convert.pyスクリプトを実行して、収集したレビューをブログ記事に変換します:
ほら
- テンプレートのカスタマイズ: ブログ記事は固定されたデザインテンプレートに従っており、デザインをカスタマイズする必要がある場合は、テンプレートファイルを自分で修正する必要があります。
- コスト管理HTMLページのない論文を処理する場合は、--stop-at-no-htmlオプションを使用してコストを削減することをお勧めします。
- APIの使用UpstageとGemini APIは、より正確な画像情報の抽出を提供しますが、追加コストが発生する場合があります。
以上の手順で、ユーザーは簡単にarXivの論文から包括的なレビューを生成し、学術研究やブログ執筆など様々な場面でブログ記事にすることができる。