Introdução geral
O OpenAI Edge TTS é um projeto de código aberto que fornece uma API de conversão de texto em fala (TTS) nativa compatível com a OpenAI que usa o serviço de conversão de texto em fala on-line do Microsoft Edge para permitir que os usuários gerem uma saída de fala de alta qualidade. O OpenAI Edge TTS oferece suporte a uma ampla gama de opções de fala e velocidades de reprodução, e pode gerar vários formatos de áudio. O serviço pode ser implantado via Docker ou Python para acesso rápido e fácil.
Itens relacionados:edge-tts: módulo Python de conversão de texto em fala | Serviço gratuito de conversão de texto em fala eEdge TTS Worker: implantação de APIs de síntese de fala da Microsoft usando Cloudflare, formato compatível com OpenAI e interface da Web empacotada
Lista de funções
- Pontos de extremidade compatíveis com OpenAISuporte para a mesma estrutura e comportamento de solicitação que os endpoints OpenAI TTS.
- Suporte a várias vozesMapeamento de fala OpenAI para fala equivalente ao Edge TTS.
- Formatos de áudio flexíveisSuporte a MP3, Opus, AAC, FLAC, WAV, PCM e muitos outros formatos de áudio.
- Velocidade de reprodução ajustávelVelocidade de reprodução: A velocidade de reprodução pode ser ajustada de 0,25x a 4,0x.
- Seleção direta da voz do Edge TTSVoz: Você pode usar o mapeamento de voz da OpenAI ou especificar qualquer voz do Edge TTS diretamente.
Usando a Ajuda
Processo de instalação
Implementação com o Docker (recomendado)
- armazém de clones::
git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
- Criação de um arquivo de variável de ambienteCriar no diretório raiz do projeto
.env
contendo as seguintes variáveis:
API_KEY=sua_chave_de_api_aqui
PORT=5050
DEFAULT_VOICE=pt-US-AndrewNeural
DEFAULT_RESPONSE_FORMAT=mp3
DEFAULT_SPEED=1.2
DEFAULT_LANGUAGE=pt-EUA
REQUIRE_API_KEY=True
REMOVE_FILTER=False
EXPAND_API=True
- Executando o Docker Compose::
docker compose up --build
Para executar em segundo plano, use o comando -d
Parâmetros:
docker compose up -d
Implementação com Python
- armazém de clones::
git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
- Configuração de um ambiente virtual::
python3 -m venv venv
fonte venv/bin/activate
- Instalação de dependências::
pip install -r requirements.txt
- Criação de um arquivo de variável de ambienteCriar no diretório raiz do projeto
.env
que contém as variáveis acima. - Servidor de operações::
python app/main.py
Instruções de uso
- Acessando a APIQuando a implantação estiver concluída, o servidor executará
http://localhost:5050
O ponto de extremidade da API pode ser acessado enviando uma solicitação HTTP. O ponto de extremidade da API pode ser acessado enviando uma solicitação HTTP para/v1/audio/fala
. - Gerar discursoenvia uma solicitação POST para
/v1/audio/fala
O corpo da solicitação contém os seguintes dados JSON:
{
"text": "Hello, world!",
"formato": "mp3", "velocidade": 1,0
"speed": 1.0
}
- Ajuste da velocidade de reproduçãoModificação
velocidade
variando de 0,25 a 4,0. - Selecionar voz: Uso
voz
O parâmetro especifica a voz; as vozes compatíveis incluemliga
,eco
,fábula
,ônix
,nova
,brilho
etc. - formato de áudio: Uso
formato
especifica o formato de áudio, que suportamp3
,obra
,aac
,flac
,wav
,pcm
etc.
Com essas etapas, os usuários podem implementar e usar facilmente o serviço OpenAI Edge TTS para gerar resultados de conversão de texto em fala de alta qualidade.