Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

Paper to Podcast: conversão de artigos acadêmicos em podcasts de conversas com várias pessoas

Introdução geral

O Paper to Podcast é uma ferramenta de código aberto especializada em transformar trabalhos de pesquisa acadêmica em podcasts animados e divertidos. Ela facilita a compreensão de conteúdos acadêmicos complexos usando tecnologia de inteligência artificial para transformar um artigo em formato PDF em um diálogo entre três personagens: o apresentador, o aluno e o especialista. O projeto, publicado no GitHub pelo desenvolvedor Azzedde, destina-se a pessoas que gostam de ouvir podcasts, especialmente usuários que desejam estudar artigos enquanto se deslocam ou viajam. Ele usa as APIs da OpenAI para gerar diálogo e áudio a um custo baixo, por exemplo, cerca de US$ 0,16 para um podcast de 9 minutos de um artigo de 19 páginas. O projeto é fácil de usar, e são fornecidos exemplos de podcasts para referência.

Paper to Podcast: conversão de artigos acadêmicos em podcasts de diálogo com várias pessoas-1


 

Lista de funções

  • Conversão de documentos de pesquisa em formato PDF em podcasts na forma de diálogos de três pessoas.
  • Gerar um diálogo interativo entre as três funções de facilitador, aluno e especialista.
  • Use a API OpenAI para converter conteúdo em papel em áudio de linguagem natural.
  • oferta ./sample_podcasts Exemplos de podcasts na pasta.
  • Suporte para otimização de código, por exemplo, reduzindo o tempo de geração ou usando modelos locais.

 

Usando a Ajuda

Processo de instalação

Para usar o Paper to Podcast, você precisa configurar o ambiente localmente. Veja a seguir as etapas detalhadas:

  1. armazém de clones
    Execute o seguinte comando no terminal para baixar o arquivo de projeto localmente:
git clone https://github.com/Azzedde/paper_to_podcast.git
  1. Vá para o diretório do projeto
    Digite o comando para alternar para a pasta do projeto:
cd paper_to_podcast
  1. Configuração da chave da API da OpenAI
  • Será necessário registrar uma conta e obter uma chave de API no site oficial da OpenAI.
  • Na pasta do projeto, crie um novo arquivo .env Documentação.
  • Adicione uma linha ao arquivo:
OPENAI_API_KEY=你的密钥
  • Salve o arquivo e verifique se a chave está correta.
  1. Instalação de dependências
  • Certifique-se de que o Python esteja instalado em seu computador (recomenda-se a versão 3.10 ou superior).
  • É executado no terminal:
pip install -r requirements.txt
  • Isso instalará as bibliotecas necessárias, como PyPDF2, pydub, LangChain e assim por diante.
  1. Preparação de documentos de tese
  • Coloque o trabalho de pesquisa em formato PDF em uma pasta de projeto, por exemplo, chamada research_paper.pdf.
  • Observação: os arquivos devem ser PDFs de texto legíveis; imagens digitalizadas não são válidas.
  1. Executando scripts
  • Digite-o no terminal:
python paper_to_podcast.py path/to/your/research_paper.pdf
  • intercambialidade path/to/your/research_paper.pdf para o caminho do arquivo. O script iniciará o processamento.

Função Fluxo de operação

Geração de podcasts

  • arquivo de entradaEspecifique o caminho para o arquivo PDF ao executar o script e a ferramenta lerá o conteúdo do documento.
  • Geração de diálogo::
  • O sistema funciona da seguinte forma Planning Chain Crie um plano detalhado para cada parte do documento para garantir um conteúdo preciso.
  • fazer uso de Discussion ChainO recurso de recuperação de dados, combinado com modelos generativos aprimorados por recuperação, transforma o documento em um diálogo de três pessoas. O moderador apresenta o tópico, o aluno faz perguntas e o especialista explica detalhadamente.
  • Enhancement Chain Otimize os scripts para remover conteúdo duplicado e ajuste as transições para garantir um diálogo suave.
  • saída de áudio::
  • Depois que o script é gerado, a API OpenAI converte o texto em áudio com vozes realistas para cada personagem.
  • O arquivo de saída é salvo na pasta do projeto por padrão, e a amostra está na pasta ./sample_podcasts Médio.

Ver amostra

  • O projeto fornece podcasts de amostra gerados no caminho do ./sample_podcasts. Você pode ouvir amostras primeiro para ter uma ideia do estilo do diálogo e dos efeitos de áudio.

Detalhes técnicos

  • estrutura de código::
  • Planning ChainPlaneje o conteúdo do seu documento para reduzir os erros de geração.
  • Discussion ChainGeração de diálogos que permanecem consistentes com o texto original.
  • Enhancement Chain: embelezar o roteiro para aprimorar a experiência auditiva.
  • Text-to-Speech: para áudio usando a API OpenAI.
  • Custos (de fabricação, produção etc.)Geração de um podcast de 9 minutos de um artigo de 19 páginas custa cerca de US$ 0,16, dependendo da extensão do conteúdo.

Precauções de uso

  • requisito de redeO processo de geração requer chamadas em rede para a API do OpenAI.
  • formato de arquivo: Somente PDF é compatível, certifique-se de que o texto seja extraível.
  • detecção de erros::
  • Se solicitado ModuleNotFoundErrorEm execução pip list Verifique se as dependências estão instaladas.
  • Se a chave for inválida, verifique a .env está configurado corretamente.
  • Recomendações de otimizaçãoNo momento, leva muito tempo para gerar, o desenvolvedor planeja melhorar a velocidade. Recomendamos acompanhar as atualizações do GitHub.

planos futuros

  • Reduzir o tempo de geração de podcast e aumentar a eficiência.
  • Suporte a modelos nativos (por exemplo, Ollama) e síntese de fala de código aberto, reduzindo a dependência do OpenAI.
  • Os usuários podem enviar sugestões de otimização ou participar do desenvolvimento via GitHub.

Com essas etapas, você pode transformar seu artigo em um podcast com o Paper to Podcast e estudar facilmente a qualquer hora e em qualquer lugar.

 

cenário do aplicativo

  1. Aprendizado de transporte público
    Ouça podcasts para saber mais sobre o conteúdo do jornal sem olhar para uma tela enquanto dirige ou usa o transporte público.
  2. intercâmbio acadêmico
    O pesquisador converte o documento em áudio e o compartilha com a equipe ou com os alunos para facilitar a discussão.
  3. hobbyista
    As pessoas que têm curiosidade sobre campos acadêmicos, mas não têm tempo para ler artigos, usam podcasts para aprender rapidamente os conceitos básicos.

 

QA

  1. Quanto custa gerar um podcast?
    Usando a API da OpenAI, um artigo de 19 páginas gera um podcast de 9 minutos por cerca de US$ 0,16, dependendo do tamanho do artigo.
  2. Ele é compatível com arquivos que não sejam PDF?
    Não há suporte, atualmente só aceita o formato PDF; é necessário converter outros formatos para PDF primeiro.
  3. Como é determinada a duração do podcast?
    Dependendo do número de páginas e da complexidade do documento, um documento de 19 páginas gera aproximadamente 9 minutos de áudio.
  4. Posso ajustar minha função?
    Atualmente fixado para Host, Learner e Expert, você mesmo precisa ajustar o código se quiser mudar de função; consulte o GitHub para obter detalhes.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Paper to Podcast: conversão de artigos acadêmicos em podcasts de conversas com várias pessoas
pt_BRPortuguês do Brasil