Introdução geral
O PDF2Audio é um projeto de código aberto desenvolvido para converter arquivos PDF em conteúdo de áudio, como podcasts, palestras e resumos. A ferramenta aproveita o modelo GPT da OpenAI para geração de texto e conversão de texto em fala, permitindo que os usuários carreguem vários arquivos PDF, selecionem diferentes modelos de instrução (por exemplo, podcasts, palestras, resumos etc.) e personalizem a geração de texto e o modelo de áudio. O pdf2Audio oferece uma ampla variedade de opções de fala e permite que os usuários aprimorem iterativamente o conteúdo de áudio editando rascunhos e fornecendo feedback.
Itens relacionados recomendados:NotebookLM: Leitura de recuperação de notas de conhecimento, geração de documentos multiclasse Podcasts de diálogo por voz
Lista de funções
- Carregar vários arquivos PDF
- Selecione diferentes modelos de instrução (podcasts, palestras, resumos, etc.)
- Geração de texto personalizado e modelagem de áudio
- Selecione uma voz diferente
- Melhorar iterativamente o conteúdo de áudio, editando rascunhos e fornecendo feedback
- Suporte para instalação e uso local
Interface PDF2Audio
A interface do PDF2Audio é muito simples, e as etapas são as seguintes:
1. faça o upload de um ou mais arquivos PDF
2. selecione o modelo de instrução desejado
3. modelos de instruções personalizados, se necessário
4. clique no botão "Generate Audio" (Gerar áudio) para criar o conteúdo de áudio.
Usando a Ajuda
Experiência on-line
https://huggingface.co/spaces/lamm-mit/PDF2Audio
https://colab.research.google.com/github/lamm-mit/PDF2Audio/blob/main/PDF2Audio.ipynb
Processo de instalação local
- armazém de clonesExecute o seguinte comando em um terminal para clonar o repositório PDF2Audio:
git clone https://github.com/lamm-mit/PDF2Audio.git cd PDF2Audio
- Instalando o MinicondaSe o Miniconda ainda não estiver instalado, baixe o instalador do site do Miniconda e siga as instruções de instalação para seu sistema operacional. Verifique se a instalação foi bem-sucedida:
conda --version
- Criação de um ambiente CondaCrie um novo ambiente Conda executando o seguinte comando em um terminal:
conda create -n pdf2audio python=3.9 conda activate pdf2audio
- Instalação de dependênciasExecute o seguinte comando em um terminal para instalar as dependências necessárias:
pip install -r requirements.txt
- Configuração da chave da API da OpenAI: Criar um
.env
e adicione sua chave de API da OpenAI:OPENAI_API_KEY=sua_chave_de_api_aqui
Processo de uso
- Executar o aplicativoVerifique se você está no diretório do projeto e se o ambiente do Conda está ativado:
conda activate pdf2audio python app.py
- Abra seu navegadorURL: Um URL é fornecido no terminal, geralmente o
http://localhost:7860
O URL é aberto no navegador. - Carregar arquivos PDFCarregar um ou mais arquivos PDF usando a interface do Gradio.
- Seleção de um modelo de comandoSelecione o modelo de instrução que você deseja (por exemplo, podcast, palestra, resumo etc.).
- Comandos personalizadosPersonalize as instruções conforme necessário.
- Gerar áudioClique no botão "Generate Audio" (Gerar áudio) para criar seu conteúdo de áudio.
advertência
- O aplicativo requer uma chave de API da OpenAI para ser executado.
- Você pode melhorar iterativamente o conteúdo de áudio editando rascunhos e fornecendo feedback específico ou geral.