Introdução geral
O Paper to Podcast é uma ferramenta de código aberto especializada em transformar trabalhos de pesquisa acadêmica em podcasts animados e divertidos. Ela facilita a compreensão de conteúdos acadêmicos complexos usando tecnologia de inteligência artificial para transformar um artigo em formato PDF em um diálogo entre três personagens: o apresentador, o aluno e o especialista. O projeto, publicado no GitHub pelo desenvolvedor Azzedde, destina-se a pessoas que gostam de ouvir podcasts, especialmente usuários que desejam estudar artigos enquanto se deslocam ou viajam. Ele usa as APIs da OpenAI para gerar diálogo e áudio a um custo baixo, por exemplo, cerca de US$ 0,16 para um podcast de 9 minutos de um artigo de 19 páginas. O projeto é fácil de usar, e são fornecidos exemplos de podcasts para referência.
Lista de funções
- Conversão de documentos de pesquisa em formato PDF em podcasts na forma de diálogos de três pessoas.
- Gerar um diálogo interativo entre as três funções de facilitador, aluno e especialista.
- Use a API OpenAI para converter conteúdo em papel em áudio de linguagem natural.
- oferta
./sample_podcasts
Exemplos de podcasts na pasta. - Suporte para otimização de código, por exemplo, reduzindo o tempo de geração ou usando modelos locais.
Usando a Ajuda
Processo de instalação
Para usar o Paper to Podcast, você precisa configurar o ambiente localmente. Veja a seguir as etapas detalhadas:
- armazém de clones
Execute o seguinte comando no terminal para baixar o arquivo de projeto localmente:
git clone https://github.com/Azzedde/paper_to_podcast.git
- Vá para o diretório do projeto
Digite o comando para alternar para a pasta do projeto:
cd paper_to_podcast
- Configuração da chave da API da OpenAI
- Será necessário registrar uma conta e obter uma chave de API no site oficial da OpenAI.
- Na pasta do projeto, crie um novo arquivo
.env
Documentação. - Adicione uma linha ao arquivo:
OPENAI_API_KEY=你的密钥
- Salve o arquivo e verifique se a chave está correta.
- Instalação de dependências
- Certifique-se de que o Python esteja instalado em seu computador (recomenda-se a versão 3.10 ou superior).
- É executado no terminal:
pip install -r requirements.txt
- Isso instalará as bibliotecas necessárias, como PyPDF2, pydub, LangChain e assim por diante.
- Preparação de documentos de tese
- Coloque o trabalho de pesquisa em formato PDF em uma pasta de projeto, por exemplo, chamada
research_paper.pdf
. - Observação: os arquivos devem ser PDFs de texto legíveis; imagens digitalizadas não são válidas.
- Executando scripts
- Digite-o no terminal:
python paper_to_podcast.py path/to/your/research_paper.pdf
- intercambialidade
path/to/your/research_paper.pdf
para o caminho do arquivo. O script iniciará o processamento.
Função Fluxo de operação
Geração de podcasts
- arquivo de entradaEspecifique o caminho para o arquivo PDF ao executar o script e a ferramenta lerá o conteúdo do documento.
- Geração de diálogo::
- O sistema funciona da seguinte forma
Planning Chain
Crie um plano detalhado para cada parte do documento para garantir um conteúdo preciso. - fazer uso de
Discussion Chain
O recurso de recuperação de dados, combinado com modelos generativos aprimorados por recuperação, transforma o documento em um diálogo de três pessoas. O moderador apresenta o tópico, o aluno faz perguntas e o especialista explica detalhadamente. Enhancement Chain
Otimize os scripts para remover conteúdo duplicado e ajuste as transições para garantir um diálogo suave.- saída de áudio::
- Depois que o script é gerado, a API OpenAI converte o texto em áudio com vozes realistas para cada personagem.
- O arquivo de saída é salvo na pasta do projeto por padrão, e a amostra está na pasta
./sample_podcasts
Médio.
Ver amostra
- O projeto fornece podcasts de amostra gerados no caminho do
./sample_podcasts
. Você pode ouvir amostras primeiro para ter uma ideia do estilo do diálogo e dos efeitos de áudio.
Detalhes técnicos
- estrutura de código::
Planning Chain
Planeje o conteúdo do seu documento para reduzir os erros de geração.Discussion Chain
Geração de diálogos que permanecem consistentes com o texto original.Enhancement Chain
: embelezar o roteiro para aprimorar a experiência auditiva.Text-to-Speech
: para áudio usando a API OpenAI.- Custos (de fabricação, produção etc.)Geração de um podcast de 9 minutos de um artigo de 19 páginas custa cerca de US$ 0,16, dependendo da extensão do conteúdo.
Precauções de uso
- requisito de redeO processo de geração requer chamadas em rede para a API do OpenAI.
- formato de arquivo: Somente PDF é compatível, certifique-se de que o texto seja extraível.
- detecção de erros::
- Se solicitado
ModuleNotFoundError
Em execuçãopip list
Verifique se as dependências estão instaladas. - Se a chave for inválida, verifique a
.env
está configurado corretamente. - Recomendações de otimizaçãoNo momento, leva muito tempo para gerar, o desenvolvedor planeja melhorar a velocidade. Recomendamos acompanhar as atualizações do GitHub.
planos futuros
- Reduzir o tempo de geração de podcast e aumentar a eficiência.
- Suporte a modelos nativos (por exemplo, Ollama) e síntese de fala de código aberto, reduzindo a dependência do OpenAI.
- Os usuários podem enviar sugestões de otimização ou participar do desenvolvimento via GitHub.
Com essas etapas, você pode transformar seu artigo em um podcast com o Paper to Podcast e estudar facilmente a qualquer hora e em qualquer lugar.
cenário do aplicativo
- Aprendizado de transporte público
Ouça podcasts para saber mais sobre o conteúdo do jornal sem olhar para uma tela enquanto dirige ou usa o transporte público. - intercâmbio acadêmico
O pesquisador converte o documento em áudio e o compartilha com a equipe ou com os alunos para facilitar a discussão. - hobbyista
As pessoas que têm curiosidade sobre campos acadêmicos, mas não têm tempo para ler artigos, usam podcasts para aprender rapidamente os conceitos básicos.
QA
- Quanto custa gerar um podcast?
Usando a API da OpenAI, um artigo de 19 páginas gera um podcast de 9 minutos por cerca de US$ 0,16, dependendo do tamanho do artigo. - Ele é compatível com arquivos que não sejam PDF?
Não há suporte, atualmente só aceita o formato PDF; é necessário converter outros formatos para PDF primeiro. - Como é determinada a duração do podcast?
Dependendo do número de páginas e da complexidade do documento, um documento de 19 páginas gera aproximadamente 9 minutos de áudio. - Posso ajustar minha função?
Atualmente fixado para Host, Learner e Expert, você mesmo precisa ajustar o código se quiser mudar de função; consulte o GitHub para obter detalhes.