Allgemeine Einführung
OpenAI Edge TTS ist ein Open-Source-Projekt, das eine OpenAI-kompatible native Text-to-Speech (TTS)-API bereitstellt, die den Online-Text-to-Speech-Dienst von Microsoft Edge nutzt, um Benutzern die Möglichkeit zu geben, qualitativ hochwertige Sprachausgaben zu erzeugen. OpenAI Edge TTS unterstützt eine breite Palette von Sprachoptionen und Wiedergabegeschwindigkeiten und kann mehrere Audioformate erzeugen. Der Dienst kann über Docker oder Python bereitgestellt werden, um einen schnellen und einfachen Zugriff zu ermöglichen.
Ähnliche Artikel:edge-tts: Text-to-Speech Python-Modul | Freier Text-to-Speech-Dienst undEdge TTS Worker: Einsatz von Microsoft Speech Synthesis APIs mit Cloudflare, OpenAI-kompatiblem Format und Packaged Web Interface
Funktionsliste
- OpenAI-kompatible EndpunkteUnterstützt die gleiche Anfragestruktur und das gleiche Verhalten wie OpenAI TTS Endpunkte.
- Unterstützung mehrerer StimmenMapping von OpenAI-Sprache auf Edge TTS-äquivalente Sprache.
- Flexible AudioformateUnterstützt MP3, Opus, AAC, FLAC, WAV, PCM und viele andere Audioformate.
- Einstellbare AbspielgeschwindigkeitDie Wiedergabegeschwindigkeit kann von 0,25x bis 4,0x eingestellt werden.
- Direkte Auswahl der Edge-TTS-StimmeSie können die OpenAI-Stimmenzuordnung verwenden oder eine beliebige Edge-TTS-Stimme direkt angeben.
Hilfe verwenden
Einbauverfahren
Bereitstellen mit Docker (empfohlen)
- Klon-Lager::
git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
- Erstellen einer Datei mit UmgebungsvariablenAnlegen im Stammverzeichnis des Projekts
.env
Datei, die die folgenden Variablen enthält:
API_KEY=your_api_key_here
PORT=5050
DEFAULT_VOICE=en-US-AndrewNeural
DEFAULT_RESPONSE_FORMAT=mp3
DEFAULT_SPEED=1.2
DEFAULT_LANGUAGE=en-US
REQUIRE_API_KEY=True
REMOVE_FILTER=False
EXPAND_API=True
- Docker Compose ausführen::
docker compose up --build
Um im Hintergrund zu laufen, verwenden Sie die -d
Parameter:
docker compose up -d
Einsatz mit Python
- Klon-Lager::
git clone https://github.com/travisvn/openai-edge-tts.git
cd openai-edge-tts
- Einrichten einer virtuellen Umgebung::
python3 -m venv venv
source venv/bin/activate
- Installation von Abhängigkeiten::
pip install -r requirements.txt
- Erstellen einer Datei mit UmgebungsvariablenAnlegen im Stammverzeichnis des Projekts
.env
Datei, die die oben genannten Variablen enthält. - Operationsserver::
python app/main.py
Anweisungen für den Gebrauch
- Zugriff auf die APIWenn die Bereitstellung abgeschlossen ist, wird der Server ausgeführt
http://localhost:5050
Auf den API-Endpunkt kann durch Senden einer HTTP-Anforderung zugegriffen werden. Auf API-Endpunkte kann durch Senden von HTTP-Anforderungen an folgende Adresse zugegriffen werden/v1/audio/speech
. - Sprache generieren: sendet eine POST-Anfrage an
/v1/audio/speech
Der Anfragekörper enthält die folgenden JSON-Daten:
{
"text": "Hello, world!",
"voice": "en-US-AndrewNeural",
"format": "mp3",
"speed": 1.0
}
- Einstellen der WiedergabegeschwindigkeitModifikation
speed
Parameter, der von 0,25 bis 4,0 reicht. - Stimme auswählen: Verwendung
voice
Parameter gibt die Stimme an. Unterstützt werden folgende Stimmenalloy
,echo
,fable
,onyx
,nova
,shimmer
usw. - Audioformat: Verwendung
format
Parameter gibt das Audioformat an, das unterstütztmp3
,opus
,aac
,flac
,wav
,pcm
usw.
Mit diesen Schritten können Benutzer den OpenAI Edge TTS-Service problemlos einsetzen und verwenden, um hochwertige Text-to-Speech-Ausgaben zu erzeugen.