ebook2audiobook: converta ebooks em audiolivros, ferramenta de código aberto com suporte multilíngue e clonagem de voz

Recursos mais recentes de IAPublicado há 8 meses Círculo de compartilhamento de IA

15.6K 00

Introdução geral

O ebook2audiobook é uma poderosa ferramenta de código aberto de ebook para audiolivro. Ela é capaz de converter vários formatos de livros eletrônicos em audiolivros com marcadores de capítulos e metadados completos. A ferramenta usa o Calibre para conversão de formato de e-book, usando o XTTSv2 e o Fairseq da Coqui para conversão de texto em fala de alta qualidade, suporte para 1124 idiomas, incluindo chinês, e fornece clonagem de voz. A ferramenta é fornecida com uma GUI intuitiva na Web, suporta operação por CPU e GPU e tem baixos requisitos de recursos, exigindo apenas 4 GB de RAM para ser executada. Seja para uso pessoal ou conversão em lote, ela permite a produção de audiolivros de nível profissional.

ebook2audiobook：将电子书转换为有声读物，支持多语言和语音克隆的开源工具

Experiência on-line: https://huggingface.co/spaces/drewThomasson/ebook2audiobook

Lista de funções

Suporta a conversão de vários formatos de livros eletrônicos, incluindo epub, pdf, mobi e mais de 20 formatos
Reconhecimento automático e retenção da estrutura do capítulo do e-book
Conversão de texto em fala de alta qualidade usando o avançado mecanismo XTTSv2
Suporta processamento de texto para fala em 1.124 idiomas
Fornece a função de clonagem de voz, podendo personalizar a voz de leitura
Saída em formato m4b com informações e metadados completos do capítulo
Fornece interface gráfica da Web, com operação simples e intuitiva
Oferece suporte à implantação de contêineres do Docker para garantir a compatibilidade entre plataformas
Aceleração opcional da GPU para aumentar as velocidades de processamento
Suporte à função de conversão em lote

Usando a Ajuda

O Google Colab é gratuito

1. modalidades de instalação

1.1 Uso do Docker (recomendado)

O Docker é a maneira mais fácil de instalar, garantindo um ambiente de tempo de execução uniforme e estável.

Comando de execução da versão da CPU:

docker run -it --rm -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py

Versão GPU do comando run (requer uma placa de vídeo NVIDIA):

docker run -it --rm --gpus all -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py

1.2 Instalação local

Clonar o repositório de código:

git clone https://github.com/DrewThomasson/ebook2audiobook.git

Instale a dependência:

Python 3.x
Calibre (ferramenta de conversão de livros eletrônicos)
FFmpeg (ferramenta de processamento de áudio)
Pacotes Python: tts, pydub, nltk, beautifulsoup4, ebooklib, tqdm

2 Métodos de uso

2.1 Uso da interface gráfica

Após iniciar o programa, acesse http://localhost:7860 por meio de seu navegador
Carregamento de arquivos de eBooks na interface da Web
Seleção do idioma de destino e do arquivo de som (opcional)
Clique para iniciar a conversão

2.2 Uso da linha de comando

Formato de comando básico:

python app.py --headless --ebook <电子书文件路径> --language <语言代码> --voice <声音文件路径>

3. descrição de parâmetros importantes

--ebook: caminho do arquivo do ebook (obrigatório)
--language: código do idioma de destino (opcional, padrão inglês)
--voice: caminho do arquivo de voz (opcional, para clonagem de voz)
--device: escolha se deseja usar CPU ou GPU
--speed: ajuste da velocidade da voz (padrão 1,0)

4 Formatos de arquivo suportados

Formato de entrada:

epub (recomendado, melhor suportado)
pdf
mobi
txt
Outros formatos: html, rtf, chm, lit, pdb, fb2, odt, etc.

Formato de saída:

m4b (formato de áudio com marcadores de capítulo e metadados)

5. funções avançadas

5.1 Clonagem de fala

Prepare arquivos de amostra de som alvo de 16 kHz ou 24 kHz
Especifique o caminho do arquivo de som durante a conversão
O sistema lerá em voz alta usando a voz-alvo

5.2 Conversão em lote

Crie o diretório input-folder e coloque o arquivo do eBook nele.
Criar diretório de saída de audiolivros
Processamento de vários arquivos com o comando Batch Conversion (Conversão em lote)

6. resolução de problemas comuns

Velocidade de conversão da CPU lenta

Solução: use a aceleração de GPU ou use serviços de nuvem
Recomendado: Usar o Hugging Face Space ou o Google Colab

Problemas de instalação dependentes

Versão recomendada do Docker para evitar problemas de dependência
Verifique a compatibilidade do sistema e as versões dependentes

Problemas de truncamento de áudio

Verificar a formatação do texto de entrada
Ajuste dos parâmetros de segmentação de texto
Relate problemas específicos de idioma para melhorar o suporte

Recursos mais recentes de IA # Projeto de código aberto AI Java # Conversão de texto em fala com IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Cursor: um editor de código para coprogramação com IA

Recursos mais recentes de IA # AI IDE Programação de IA #

7 meses atrás

020.7K

Kolors Virtual Try On：高效的虚拟试穿/模特换装，文本到图像生成模型

Kolors Virtual Try On: prova virtual eficiente/vestir o modelo, modelos de geração de texto para imagem

Recursos mais recentes de IA # Projeto de código aberto AI Java # AI Face Swap and Dress Up

9 meses atrás

015K

VITA: Modelos de linguagem multimodal de grande porte de código aberto para interação visual e de fala em tempo real

Recursos mais recentes de IA # Projeto de código aberto AI Java # Produtos multimodais interativos em tempo real

8 meses atrás

019.8K

Swarms: estrutura de orquestração de inteligência múltipla, ferramenta de produção empresarial

Recursos mais recentes de IA # Projeto de código aberto AI Java Estrutura de desenvolvimento do corpo inteligente #

9 meses atrás

013.5K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

ebook2audiobook: converta ebooks em audiolivros, ferramenta de código aberto com suporte multilíngue e clonagem de voz

Introdução geral

Lista de funções

Usando a Ajuda

1. modalidades de instalação

1.1 Uso do Docker (recomendado)

1.2 Instalação local

2 Métodos de uso

2.1 Uso da interface gráfica

2.2 Uso da linha de comando

3. descrição de parâmetros importantes

4 Formatos de arquivo suportados

5. funções avançadas

5.1 Clonagem de fala

5.2 Conversão em lote

6. resolução de problemas comuns

Memary: um projeto de código aberto para aprimorar a memória de longo prazo do agente usando gráficos de conhecimento

MagicMirror: o cliente nativo leve para mudanças de rosto, cabelo e roupas com um clique de IA

Artigos relacionados

Cursor: um editor de código para coprogramação com IA

Kolors Virtual Try On: prova virtual eficiente/vestir o modelo, modelos de geração de texto para imagem

VITA: Modelos de linguagem multimodal de grande porte de código aberto para interação visual e de fala em tempo real

Swarms: estrutura de orquestração de inteligência múltipla, ferramenta de produção empresarial

Sem comentários

Últimas coleções

Artigos mais recentes

ebook2audiobook: converta ebooks em audiolivros, ferramenta de código aberto com suporte multilíngue e clonagem de voz

Introdução geral

Lista de funções

Usando a Ajuda

1. modalidades de instalação

1.1 Uso do Docker (recomendado)

1.2 Instalação local

2 Métodos de uso

2.1 Uso da interface gráfica

2.2 Uso da linha de comando

3. descrição de parâmetros importantes

4 Formatos de arquivo suportados

5. funções avançadas

5.1 Clonagem de fala

5.2 Conversão em lote

6. resolução de problemas comuns

Memary: um projeto de código aberto para aprimorar a memória de longo prazo do agente usando gráficos de conhecimento

MagicMirror: o cliente nativo leve para mudanças de rosto, cabelo e roupas com um clique de IA

Artigos relacionados

Cursor: um editor de código para coprogramação com IA

Kolors Virtual Try On: prova virtual eficiente/vestir o modelo, modelos de geração de texto para imagem

VITA: Modelos de linguagem multimodal de grande porte de código aberto para interação visual e de fala em tempo real

Swarms: estrutura de orquestração de inteligência múltipla, ferramenta de produção empresarial

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes