Introdução geral
O Kokoro-FastAPI é um pacote FastAPI baseado no Docker projetado para oferecer suporte ao modelo de conversão de texto em fala Kokoro-82M. O projeto oferece suporte à aceleração da GPU NVIDIA e fornece processamento de filas e emenda automática para tornar a saída de fala de texto adulto bruto mais eficiente e coerente. O projeto foi desenvolvido pelo usuário do GitHub remsky e está disponível publicamente no GitHub. Os usuários podem fazer solicitações de conversão de texto em fala por meio da interface da API e obter saída de fala de alta qualidade para uma variedade de cenários de aplicativos que exigem geração de fala.
Lista de funções
- Fornecer um pacote de API para o modelo de conversão de texto em fala Kokoro-82M
- Suporta a aceleração de GPU NVIDIA para melhorar a eficiência da geração de fala
- Função de processamento de filas para suportar solicitações simultâneas
- Função de emenda automática para gerar uma saída de fala coerente de textos longos
- Implementação em Docker para instalação e configuração simplificadas
- Fornecer código de amostra e documentação para que os desenvolvedores possam começar.
Usando a Ajuda
Processo de instalação
- Certifique-se de que o Docker e o suporte ao NVIDIA Docker estejam instalados.
- Clone o repositório do projeto Kokoro-FastAPI:
git clone https://github.com/remsky/Kokoro-FastAPI.git
- Vá para o diretório do projeto e crie a imagem do Docker:
cd Kokoro-FastAPI docker build -t kokoro-fastapi .
- Inicie o contêiner do Docker:
docker run --gpus all -d -p 8000:8000 kokoro-fastapi
Usando a interface da API
- Acesse a documentação da API:
Abra seu navegador e acesse http://localhost:8000/docs para visualizar a documentação da API e testar a interface. - Envia uma solicitação de conversão de texto em fala:
Use uma solicitação POST para enviar uma mensagem para o/gerar
envia dados de texto, por exemplo:curl -X POST "http://localhost:8000/generate" -H "accept: application/json" -H "Content-Type: application/json" -d '{"text": "Hello, world!"}'
- Obter saída de fala:
Após a solicitação bem-sucedida, o URL do arquivo de voz gerado será retornado e o usuário poderá fazer download ou reproduzir o arquivo.
Código de amostra (computação)
O projeto fornece código de amostra para ajudar os desenvolvedores a começar rapidamente:
- O exemplo test_openai_tts.py mostra como fazer uma solicitação de conversão de texto em fala usando a API.
Procedimento de operação detalhado
- Certifique-se de que o sistema atenda aos requisitos de hardware e software, especialmente os drivers de GPU e CUDA da NVIDIA.
- Siga o procedimento de instalação para instalar e iniciar o serviço Kokoro-FastAPI.
- Consulte a documentação da API e o código de amostra para enviar uma solicitação de conversão de texto em fala.
- Obtenção de arquivos de saída de fala, processamento e uso subsequentes.
Com as etapas acima, os usuários podem implementar e usar facilmente a Kokoro-FastAPI para obter uma funcionalidade eficiente de conversão de texto em fala e fornecer serviços de geração de fala de alta qualidade para vários cenários de aplicativos.