PDF2Audio: ferramenta de conversão de PDF para áudio, PDF para Podcasting Guest

Recursos mais recentes de IAPublicado há 11 meses Círculo de compartilhamento de IA

12.3K 00

Introdução geral

O PDF2Audio é um projeto de código aberto desenvolvido para converter arquivos PDF em conteúdo de áudio, como podcasts, palestras e resumos. A ferramenta aproveita o modelo GPT da OpenAI para geração de texto e conversão de texto em fala, permitindo que os usuários carreguem vários arquivos PDF, selecionem diferentes modelos de instrução (por exemplo, podcasts, palestras, resumos etc.) e personalizem a geração de texto e o modelo de áudio. O pdf2Audio oferece uma ampla variedade de opções de fala e permite que os usuários aprimorem iterativamente o conteúdo de áudio editando rascunhos e fornecendo feedback.

Itens relacionados recomendados:NotebookLM: Leitura de recuperação de notas de conhecimento, geração de documentos multiclasse Podcasts de diálogo por voz

Lista de funções

Carregar vários arquivos PDF
Selecione diferentes modelos de instrução (podcasts, palestras, resumos, etc.)
Geração de texto personalizado e modelagem de áudio
Selecione uma voz diferente
Melhorar iterativamente o conteúdo de áudio, editando rascunhos e fornecendo feedback
Suporte para instalação e uso local

Interface PDF2Audio

A interface do PDF2Audio é muito simples, e as etapas são as seguintes:

1. faça o upload de um ou mais arquivos PDF
2. selecione o modelo de instrução desejado

3. modelos de instruções personalizados, se necessário
4. clique no botão "Generate Audio" (Gerar áudio) para criar o conteúdo de áudio.

Usando a Ajuda

Experiência on-line

https://huggingface.co/spaces/lamm-mit/PDF2Audio

https://colab.research.google.com/github/lamm-mit/PDF2Audio/blob/main/PDF2Audio.ipynb

Processo de instalação local

armazém de clonesExecute o seguinte comando em um terminal para clonar o repositório PDF2Audio:
```
git clone https://github.com/lamm-mit/PDF2Audio.git
cd PDF2Audio
```
Instalando o MinicondaSe o Miniconda ainda não estiver instalado, baixe o instalador do site do Miniconda e siga as instruções de instalação para seu sistema operacional. Verifique se a instalação foi bem-sucedida:
```
conda --version
```
Criação de um ambiente CondaCrie um novo ambiente Conda executando o seguinte comando em um terminal:
```
conda create -n pdf2audio python=3.9
conda activate pdf2audio
```
Instalação de dependênciasExecute o seguinte comando em um terminal para instalar as dependências necessárias:
```
pip install -r requirements.txt
```
Configuração da chave da API da OpenAI: Criar um .env e adicione sua chave de API da OpenAI:
```
OPENAI_API_KEY=your_api_key_here
```

Processo de uso

Executar o aplicativoVerifique se você está no diretório do projeto e se o ambiente do Conda está ativado:
```
conda activate pdf2audio
python app.py
```
Abra seu navegadorURL: Um URL é fornecido no terminal, geralmente o http://localhost:7860O URL é aberto no navegador.
Carregar arquivos PDFCarregar um ou mais arquivos PDF usando a interface do Gradio.
Seleção de um modelo de comandoSelecione o modelo de instrução que você deseja (por exemplo, podcast, palestra, resumo etc.).
Comandos personalizadosPersonalize as instruções conforme necessário.
Gerar áudioClique no botão "Generate Audio" (Gerar áudio) para criar seu conteúdo de áudio.

advertência

O aplicativo requer uma chave de API da OpenAI para ser executado.
Você pode melhorar iterativamente o conteúdo de áudio editando rascunhos e fornecendo feedback específico ou geral.