OpenAI Edge TTS: API gratuita de conversión de texto a voz mediante Edge TTS, compatible con los formatos de OpenAI.

堆友AI

Introducción general

OpenAI Edge TTS es un proyecto de código abierto que proporciona una API nativa de conversión de texto a voz (TTS) compatible con OpenAI que utiliza el servicio de conversión de texto a voz en línea de Microsoft Edge para permitir a los usuarios generar una salida de voz de alta calidad.OpenAI Edge TTS admite una amplia gama de opciones de voz y velocidades de reproducción, y es capaz de generar una amplia gama de formatos de audio. OpenAI Edge TTS admite una amplia gama de opciones de habla y velocidades de reproducción, y es capaz de generar múltiples formatos de audio. El servicio puede desplegarse a través de Docker o Python para un acceso rápido y sencillo.

Artículos relacionados:edge-tts: módulo Python de conversión de texto a voz | Servicio gratuito de conversión de texto a voz yEdge TTS Worker: Implementación de las API de síntesis de voz de Microsoft mediante Cloudflare, formato compatible con OpenAI e interfaz web empaquetada

OpenAI Edge TTS:利用 Edge TTS 的免费文本转语音API,兼容 OpenAI 格式

 

Lista de funciones

  • Endpoints compatibles con OpenAI: Soporta la misma estructura de petición y comportamiento que los terminales TTS de OpenAI.
  • Soporte de voz múltipleMapping OpenAI speech to Edge TTS equivalent speech.
  • Formatos de audio flexibles: Admite MP3, Opus, AAC, FLAC, WAV, PCM y muchos otros formatos de audio.
  • Velocidad de reproducción ajustable: La velocidad de reproducción puede ajustarse de 0,25x a 4,0x.
  • Selección directa de la voz Edge TTSCualquier voz Edge TTS puede ser especificada usando el mapeo de voz OpenAI o directamente.

 

Utilizar la ayuda

Proceso de instalación

Despliegue con Docker (recomendado)

  1. almacén de clones::
   git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
  1. Creación de un archivo de variables de entornoCrear en el directorio raíz del proyecto .env que contiene las siguientes variables:
   API_KEY=your_api_key_here
PORT=5050
DEFAULT_VOICE=en-US-AndrewNeural
DEFAULT_RESPONSE_FORMAT=mp3
DEFAULT_SPEED=1.2
DEFAULT_LANGUAGE=en-US
REQUIRE_API_KEY=True
REMOVE_FILTER=False
EXPAND_API=True
  1. Ejecución de Docker Compose::
   docker compose up --build

Para ejecutarlo en segundo plano, utilice la función -d Parámetros:

   docker compose up -d

Despliegue con Python

  1. almacén de clones::
   git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
  1. Crear un entorno virtual::
   python3 -m venv venv
source venv/bin/activate
  1. Instalación de dependencias::
   pip install -r requirements.txt
  1. Creación de un archivo de variables de entornoCrear en el directorio raíz del proyecto .env que contiene las variables anteriores.
  2. Servidor de operaciones::
   python app/main.py

Instrucciones de uso

  1. Acceso a la API: Una vez finalizado el despliegue, el servidor ejecutará http://localhost:5050Se puede acceder al punto final de la API enviando una solicitud HTTP. Se puede acceder al punto final de la API enviando una solicitud HTTP a /v1/audio/speech.
  2. Generar discursoenvía una solicitud POST a /v1/audio/speechEl cuerpo de la solicitud contiene los siguientes datos JSON:
   {
"text": "Hello, world!",
"voice": "en-US-AndrewNeural",
"format": "mp3",
"speed": 1.0
}
  1. Ajuste de la velocidad de reproducciónModificación speed que oscila entre 0,25 y 4,0.
  2. Seleccionar voz: Uso voice especifica la voz; las voces admitidas son alloy, echo, fable, onyx, nova, shimmer etc.
  3. formato de audio: Uso format especifica el formato de audio, que admite mp3, opus, aac, flac, wav, pcm etc.

Con estos pasos, los usuarios pueden implantar y utilizar fácilmente el servicio OpenAI Edge TTS para generar resultados de texto a voz de alta calidad.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...