Introdução geral
O ebook2audiobook é uma poderosa ferramenta de código aberto de ebook para audiolivro. Ela é capaz de converter vários formatos de livros eletrônicos em audiolivros com marcadores de capítulos e metadados completos. A ferramenta usa o Calibre para conversão de formato de e-book, usando o XTTSv2 e o Fairseq da Coqui para conversão de texto em fala de alta qualidade, suporte para 1124 idiomas, incluindo chinês, e fornece clonagem de voz. A ferramenta é fornecida com uma GUI intuitiva na Web, suporta operação por CPU e GPU e tem baixos requisitos de recursos, exigindo apenas 4 GB de RAM para ser executada. Seja para uso pessoal ou conversão em lote, ela permite a produção de audiolivros de nível profissional.
Lista de funções
- Suporta a conversão de vários formatos de livros eletrônicos, incluindo epub, pdf, mobi e mais de 20 formatos
- Reconhecimento automático e retenção da estrutura do capítulo do e-book
- Conversão de texto em fala de alta qualidade usando o avançado mecanismo XTTSv2
- Suporta processamento de texto para fala em 1.124 idiomas
- Fornece a função de clonagem de voz, podendo personalizar a voz de leitura
- Saída em formato m4b com informações e metadados completos do capítulo
- Fornece interface gráfica da Web, com operação simples e intuitiva
- Oferece suporte à implantação de contêineres do Docker para garantir a compatibilidade entre plataformas
- Aceleração opcional da GPU para aumentar as velocidades de processamento
- Suporte à função de conversão em lote
Usando a Ajuda
1. modalidades de instalação
1.1 Uso do Docker (recomendado)
O Docker é a maneira mais fácil de instalar, garantindo um ambiente de tempo de execução uniforme e estável.
Comando de execução da versão da CPU:
docker run -it --rm -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py
Versão GPU do comando run (requer uma placa de vídeo NVIDIA):
docker run -it --rm --gpus all -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py
1.2 Instalação local
- Clonar o repositório de código:
git clone https://github.com/DrewThomasson/ebook2audiobook.git
- Instale a dependência:
- Python 3.x
- Calibre (ferramenta de conversão de livros eletrônicos)
- FFmpeg (ferramenta de processamento de áudio)
- Pacotes Python: tts, pydub, nltk, beautifulsoup4, ebooklib, tqdm
2 Métodos de uso
2.1 Uso da interface gráfica
- Após iniciar o programa, acesse http://localhost:7860 por meio de seu navegador
- Carregamento de arquivos de eBooks na interface da Web
- Seleção do idioma de destino e do arquivo de som (opcional)
- Clique para iniciar a conversão
2.2 Uso da linha de comando
Formato de comando básico:
python app.py --headless --ebook --language -voice
3. descrição de parâmetros importantes
- --ebook: caminho do arquivo do ebook (obrigatório)
- --language: código do idioma de destino (opcional, padrão inglês)
- --voice: caminho do arquivo de voz (opcional, para clonagem de voz)
- --device: escolha se deseja usar CPU ou GPU
- --speed: ajuste da velocidade da voz (padrão 1,0)
4 Formatos de arquivo suportados
Formato de entrada:
- epub (recomendado, melhor suportado)
- mobi
- txt
- Outros formatos: html, rtf, chm, lit, pdb, fb2, odt, etc.
Formato de saída:
- m4b (formato de áudio com marcadores de capítulo e metadados)
5. funções avançadas
5.1 Clonagem de fala
- Prepare arquivos de amostra de som alvo de 16 kHz ou 24 kHz
- Especifique o caminho do arquivo de som durante a conversão
- O sistema lerá em voz alta usando a voz-alvo
5.2 Conversão em lote
- Crie o diretório input-folder e coloque o arquivo do eBook nele.
- Criar diretório de saída de audiolivros
- Processamento de vários arquivos com o comando Batch Conversion (Conversão em lote)
6. resolução de problemas comuns
- Velocidade de conversão da CPU lenta
- Solução: use a aceleração de GPU ou use serviços de nuvem
- Recomendado: Usar o Hugging Face Space ou o Google Colab
- Problemas de instalação dependentes
- Versão recomendada do Docker para evitar problemas de dependência
- Verifique a compatibilidade do sistema e as versões dependentes
- Problemas de truncamento de áudio
- Verificar a formatação do texto de entrada
- Ajuste dos parâmetros de segmentação de texto
- Relate problemas específicos de idioma para melhorar o suporte