Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

OpenAI Edge TTS: API gratuita de conversão de texto em fala usando o Edge TTS, compatível com os formatos OpenAI

Introdução geral

O OpenAI Edge TTS é um projeto de código aberto que fornece uma API de conversão de texto em fala (TTS) nativa compatível com a OpenAI que usa o serviço de conversão de texto em fala on-line do Microsoft Edge para permitir que os usuários gerem uma saída de fala de alta qualidade. O OpenAI Edge TTS oferece suporte a uma ampla gama de opções de fala e velocidades de reprodução, e pode gerar vários formatos de áudio. O serviço pode ser implantado via Docker ou Python para acesso rápido e fácil.

Itens relacionados:edge-tts: módulo Python de conversão de texto em fala | Serviço gratuito de conversão de texto em fala eEdge TTS Worker: implantação de APIs de síntese de fala da Microsoft usando Cloudflare, formato compatível com OpenAI e interface da Web empacotada


OpenAI Edge TTS:利用 Edge TTS 的免费文本转语音API,兼容 OpenAI 格式-1

 

Lista de funções

  • Pontos de extremidade compatíveis com OpenAISuporte para a mesma estrutura e comportamento de solicitação que os endpoints OpenAI TTS.
  • Suporte a várias vozesMapeamento de fala OpenAI para fala equivalente ao Edge TTS.
  • Formatos de áudio flexíveisSuporte a MP3, Opus, AAC, FLAC, WAV, PCM e muitos outros formatos de áudio.
  • Velocidade de reprodução ajustávelVelocidade de reprodução: A velocidade de reprodução pode ser ajustada de 0,25x a 4,0x.
  • Seleção direta da voz do Edge TTSVoz: Você pode usar o mapeamento de voz da OpenAI ou especificar qualquer voz do Edge TTS diretamente.

 

Usando a Ajuda

Processo de instalação

Implementação com o Docker (recomendado)

  1. armazém de clones::
   git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
  1. Criação de um arquivo de variável de ambienteCriar no diretório raiz do projeto .env contendo as seguintes variáveis:
   API_KEY=your_api_key_here
PORT=5050
DEFAULT_VOICE=en-US-AndrewNeural
DEFAULT_RESPONSE_FORMAT=mp3
DEFAULT_SPEED=1.2
DEFAULT_LANGUAGE=en-US
REQUIRE_API_KEY=True
REMOVE_FILTER=False
EXPAND_API=True
  1. Executando o Docker Compose::
   docker compose up --build

Para executar em segundo plano, use o comando -d Parâmetros:

   docker compose up -d

Implementação com Python

  1. armazém de clones::
   git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
  1. Configuração de um ambiente virtual::
   python3 -m venv venv
source venv/bin/activate
  1. Instalação de dependências::
   pip install -r requirements.txt
  1. Criação de um arquivo de variável de ambienteCriar no diretório raiz do projeto .env que contém as variáveis acima.
  2. Servidor de operações::
   python app/main.py

Instruções de uso

  1. Acessando a APIQuando a implantação estiver concluída, o servidor executará http://localhost:5050O ponto de extremidade da API pode ser acessado enviando uma solicitação HTTP. O ponto de extremidade da API pode ser acessado enviando uma solicitação HTTP para /v1/audio/speech.
  2. Gerar discursoenvia uma solicitação POST para /v1/audio/speechO corpo da solicitação contém os seguintes dados JSON:
   {
"text": "Hello, world!",
"voice": "en-US-AndrewNeural",
"format": "mp3",
"speed": 1.0
}
  1. Ajuste da velocidade de reproduçãoModificação speed variando de 0,25 a 4,0.
  2. Selecionar voz: Uso voice O parâmetro especifica a voz; as vozes compatíveis incluem alloy, echo, fable, onyx, nova, shimmer etc.
  3. formato de áudio: Uso format especifica o formato de áudio, que suporta mp3, opus, aac, flac, wav, pcm etc.

Com essas etapas, os usuários podem implementar e usar facilmente o serviço OpenAI Edge TTS para gerar resultados de conversão de texto em fala de alta qualidade.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " OpenAI Edge TTS: API gratuita de conversão de texto em fala usando o Edge TTS, compatível com os formatos OpenAI
pt_BRPortuguês do Brasil