OpenAI Edge TTS: API gratuita de conversión de texto a voz mediante Edge TTS, compatible con los formatos de OpenAI.

Introducción general

OpenAI Edge TTS es un proyecto de código abierto que proporciona una API nativa de conversión de texto a voz (TTS) compatible con OpenAI que utiliza el servicio de conversión de texto a voz en línea de Microsoft Edge para permitir a los usuarios generar una salida de voz de alta calidad.OpenAI Edge TTS admite una amplia gama de opciones de voz y velocidades de reproducción, y es capaz de generar una amplia gama de formatos de audio. OpenAI Edge TTS admite una amplia gama de opciones de habla y velocidades de reproducción, y es capaz de generar múltiples formatos de audio. El servicio puede desplegarse a través de Docker o Python para un acceso rápido y sencillo.

Artículos relacionados:edge-tts: módulo Python de conversión de texto a voz | Servicio gratuito de conversión de texto a voz yEdge TTS Worker: Implementación de las API de síntesis de voz de Microsoft mediante Cloudflare, formato compatible con OpenAI e interfaz web empaquetada

OpenAI Edge TTS:利用 Edge TTS 的免费文本转语音API,兼容 OpenAI 格式

 

Lista de funciones

  • Endpoints compatibles con OpenAI: Soporta la misma estructura de petición y comportamiento que los terminales TTS de OpenAI.
  • Soporte de voz múltipleMapping OpenAI speech to Edge TTS equivalent speech.
  • Formatos de audio flexibles: Admite MP3, Opus, AAC, FLAC, WAV, PCM y muchos otros formatos de audio.
  • Velocidad de reproducción ajustable: La velocidad de reproducción puede ajustarse de 0,25x a 4,0x.
  • Selección directa de la voz Edge TTSCualquier voz Edge TTS puede ser especificada usando el mapeo de voz OpenAI o directamente.

 

Utilizar la ayuda

Proceso de instalación

Despliegue con Docker (recomendado)

  1. almacén de clones::
   git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
  1. Creación de un archivo de variables de entornoCrear en el directorio raíz del proyecto .env que contiene las siguientes variables:
   API_KEY=your_api_key_here
PORT=5050
DEFAULT_VOICE=en-US-AndrewNeural
DEFAULT_RESPONSE_FORMAT=mp3
DEFAULT_SPEED=1.2
DEFAULT_LANGUAGE=en-US
REQUIRE_API_KEY=True
REMOVE_FILTER=False
EXPAND_API=True
  1. Ejecución de Docker Compose::
   docker compose up --build

Para ejecutarlo en segundo plano, utilice la función -d Parámetros:

   docker compose up -d

Despliegue con Python

  1. almacén de clones::
   git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
  1. Crear un entorno virtual::
   python3 -m venv venv
source venv/bin/activate
  1. Instalación de dependencias::
   pip install -r requirements.txt
  1. Creación de un archivo de variables de entornoCrear en el directorio raíz del proyecto .env que contiene las variables anteriores.
  2. Servidor de operaciones::
   python app/main.py

Instrucciones de uso

  1. Acceso a la API: Una vez finalizado el despliegue, el servidor ejecutará http://localhost:5050Se puede acceder al punto final de la API enviando una solicitud HTTP. Se puede acceder al punto final de la API enviando una solicitud HTTP a /v1/audio/speech.
  2. Generar discursoenvía una solicitud POST a /v1/audio/speechEl cuerpo de la solicitud contiene los siguientes datos JSON:
   {
"text": "Hello, world!",
"voice": "en-US-AndrewNeural",
"format": "mp3",
"speed": 1.0
}
  1. Ajuste de la velocidad de reproducciónModificación speed que oscila entre 0,25 y 4,0.
  2. Seleccionar voz: Uso voice especifica la voz; las voces admitidas son alloy, echo, fable, onyx, nova, shimmer etc.
  3. formato de audio: Uso format especifica el formato de audio, que admite mp3, opus, aac, flac, wav, pcm etc.

Con estos pasos, los usuarios pueden implantar y utilizar fácilmente el servicio OpenAI Edge TTS para generar resultados de texto a voz de alta calidad.

© declaración de copyright

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...