Introdução geral
O Paper Reviewer é um projeto de código aberto desenvolvido para gerar revisões abrangentes de artigos do arXiv e transformá-las em publicações de blog. O projeto oferece suporte para o site Hugging Face's Daily Papers para gerar automaticamente publicações em blogs. Por meio do uso dos scripts Python collect.py e convert.py, os usuários podem coletar revisões de artigos e convertê-las em postagens de blog com um modelo de design fixo.
Lista de funções
Características: 1, processamento de conteúdo, você pode ler o conteúdo do texto, extrair os gráficos, figuras, tabelas no documento 2, desde que o ID do documento, processamento e geração totalmente automáticos, suporte ao processamento em lote do documento 3, suporte à personalização, ferramentas de análise de IA, modelos de blog e assim por diante.
- Generate Comprehensive Review (Gerar revisão abrangente): gera uma revisão detalhada a partir de um determinado ID de artigo do arXiv.
- Converter em postagens de blog: converta o conteúdo de avaliação gerado em postagens de blog, seguindo um modelo de design fixo.
- Suporte a várias APIs: uso opcional do Upstage e do Gêmeos API para extrair informações visuais e de imagem.
- Automatize o processo: automatize o processo de coleta e conversão por meio de scripts, reduzindo a intervenção manual.
- Configuração flexível: suporta uma variedade de opções de configuração que os usuários podem ajustar de acordo com suas necessidades.
Usando a Ajuda
Processo de instalação
- Instalação de dependências::
- Use o pip para instalar as dependências do Python exigidas pelo projeto:
pip install -r requirements.txt
- Instale o poppler para converter PDF em imagem:
- Para usuários do Ubuntu, use o seguinte comando:
apt install poppler-utils
- Para usuários do macOS, use o Homebrew para instalar:
brew install poppler
- Para usuários do Ubuntu, use o seguinte comando:
- Use o pip para instalar as dependências do Python exigidas pelo projeto:
- Definição de variáveis de ambiente::
- Defina GEMINI_API_KEY (obrigatório):
export GEMINI_API_KEY="your_gemini_api_key"
- Opcionalmente, defina a chave de API para o Upstage e o R2:
export UPSTAGE_API_KEY="sua_upstage_api_key" export R2_ACCESS_KEY_ID="seu_r2_access_key_id" export R2_SECRET_ACCESS_KEY="seu_r2_secret_access_key" export R2_S3_ENDPOINT_URL="seu_r2_s3_endpoint_url" export R2_DOMAIN_NAME="seu_domínio_r2"
- Defina GEMINI_API_KEY (obrigatório):
Processo de uso
- Coleção de documentos para análise::
- Execute o script collect.py para gerar uma revisão do artigo com o ID do arXiv:
python collect.py --arxiv-id "your_arxiv_id" --stop-at-no-html
- Se você precisar extrair informações da imagem, poderá usar a opção --use-upstage:
python collect.py --arxiv-id "your_arxiv_id" --use-upstage
- Execute o script collect.py para gerar uma revisão do artigo com o ID do arXiv:
- Convertido em uma postagem de blog::
- Execute o script convert.py para converter as avaliações coletadas em postagens de blog:
python convert.py --arxiv-id "your_arxiv_id" --template "your_template_file"
- Se você precisar fazer upload de imagens para o R2, poderá usar a opção --upload-images-r2:
python convert.py --arxiv-id "your_arxiv_id" --upload-images-r2
- Execute o script convert.py para converter as avaliações coletadas em postagens de blog:
advertência
- Personalização de modelosSe você precisar personalizar o design, precisará modificar o arquivo de modelo por conta própria.
- controle de custosRecomenda-se usar a opção --stop-at-no-html para reduzir os custos ao processar documentos sem páginas HTML.
- Uso da APIAPIs Upstage e Gemini fornecem uma extração mais precisa das informações da imagem, mas podem incorrer em custos adicionais.
Com as etapas acima, os usuários podem facilmente gerar análises abrangentes de artigos do arXiv e transformá-las em publicações de blog para uma variedade de cenários, incluindo pesquisa acadêmica e redação de blog.