Allgemeine Einführung
openai-fm ist ein Open-Source-Projekt, das auf GitHub gehostet wird und der Demonstration der Fähigkeiten der OpenAI Text-to-Speech (TTS) API dient. Dieses Projekt ermöglicht es Entwicklern, die Fähigkeiten von OpenAI zur Spracherzeugung durch eine interaktive Webanwendung visuell zu erleben. Es wurde mit dem NextJS-Framework entwickelt, kombiniert mit TailwindCSS und ShadcnUI, um eine saubere und moderne Schnittstelle zu schaffen. Benutzer können Text eingeben, verschiedene Stimmen und emotionale Stile auswählen, um eine qualitativ hochwertige Sprachausgabe zu erzeugen. Der Projektcode ist vollständig quelloffen und unterliegt der MIT-Lizenz. Entwickler sind aufgefordert, den Code zu klonen, zu modifizieren und zu ergänzen. openai-fm eignet sich für Entwickler, um die OpenAI-Sprach-API schnell zu verstehen und zu testen, insbesondere für Anwendungsentwicklungsszenarien, die Sprachfunktionen erfordern.
Demo-Adresse: https://www.openai.fm/
Funktionsliste
- Text-zu-Sprache-Umwandlung: Wandelt den eingegebenen Text in natürliche und flüssige Sprache um.
- Mehrere Sprachoptionen: Bietet mehrere Sprachoptionen, um den Anforderungen verschiedener Szenarien gerecht zu werden.
- Steuerung des emotionalen Stils: unterstützt die Anpassung des emotionalen Tonfalls, wie z. B. freundlich, ernst usw.
- Interaktive Echtzeit-Präsentation: Erzeugung und Wiedergabe von Sprache in Echtzeit über eine Webschnittstelle.
- Datenbank-Sharing-Funktion: Unterstützt die Verbindung zu einer PostgreSQL-Datenbank, um die generierte Rede zu speichern und weiterzugeben.
- Open-Source-Unterstützung: Der vollständige Quellcode wird bereitgestellt, so dass Entwickler die Funktionalität anpassen und erweitern können.
Hilfe verwenden
Einbauverfahren
Um openai-fm zu verwenden, müssen Sie zunächst das Projekt klonen und die Umgebung konfigurieren. Hier sind die detaillierten Schritte:
- Abrufen des API-Schlüssels
Besuchen Sie die OpenAI-Website, um sich zu registrieren oder sich bei Ihrem Konto anzumelden. Navigieren Sie in Ihrem Konto-Dashboard zur Seite "API-Schlüsselverwaltung" und klicken Sie auf "Neuen Schlüssel erstellen", um Ihren Schlüssel zu generieren und zu speichern.OPENAI_API_KEY
Dieser Schlüssel wird verwendet, um die OpenAI Speech API aufzurufen. Dieser Schlüssel wird verwendet, um die OpenAI-Sprach-API aufzurufen. Hinweis: Der Schlüssel muss geheim gehalten werden, um eine Offenlegung zu vermeiden. - Klon-Lager
Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um das openai-fm-Repository zu klonen:git clone https://github.com/openai/openai-fm.git
Rufen Sie den Projektkatalog auf:
cd openai-fm
- Setzen von Umgebungsvariablen
Sie können es auf zwei Arten einrichtenOPENAI_API_KEY
::- globale LageFügen Sie die folgenden Variablen zu Ihrer Systemumgebung hinzu
OPENAI_API_KEY
.- Linux/MacOS Beispiel:
export OPENAI_API_KEY=<你的API密钥>
- Windows-Benutzer können in den Systemeinstellungen Umgebungsvariablen hinzufügen.
- Linux/MacOS Beispiel:
- Einstellung innerhalb des Projekts: Erstellen Sie die
.env
Dokumentation, Referenz.env.example
fügen Sie Folgendes hinzu:OPENAI_API_KEY=<你的API密钥>
- globale LageFügen Sie die folgenden Variablen zu Ihrer Systemumgebung hinzu
- Installation von Abhängigkeiten
Das Projekt verwendet Node.js und npm, um Abhängigkeiten zu verwalten. Stellen Sie sicher, dass Sie Node.js installiert haben (empfohlene Version 16 oder höher). Starten Sie es aus dem Stammverzeichnis des Projekts:npm install
Dadurch werden die notwendigen Abhängigkeiten wie NextJS, TailwindCSS, ShadcnUI und so weiter installiert.
- (Optional) Konfigurationsdatenbank
Wenn Sie die Freigabefunktion nutzen möchten, müssen Sie sich mit der PostgreSQL-Datenbank verbinden. Eine Liste aller PostgreSQL-Datenbanken finden Sie in der.env
Datei, um Datenbankverbindungsinformationen hinzuzufügen, finden Sie in der.env.example
::POSTGRES_URL="postgresql://用户名:密码@主机:端口/数据库名"
Vergewissern Sie sich, dass der PostgreSQL-Dienst läuft und dass die entsprechende Datenbank erstellt wurde. Wenn Sie die Freigabefunktion nicht verwenden, können Sie diesen Schritt überspringen.
- Laufende Projekte
Führen Sie nach Abschluss der Installation den folgenden Befehl aus, um den Entwicklungsserver zu starten:npm run dev
Öffnen Sie Ihren Browser und besuchen Sie
http://localhost:3000
Sie können die interaktive Schnittstelle von openai-fm sehen.
Hauptfunktionen
Das Herzstück von openai-fm ist die interaktive Text-to-Speech-Demo. Hier ist der Prozess:
- Eingabetext
Geben Sie den Text, den Sie in Sprache umwandeln möchten, in das Textfeld der Weboberfläche ein. Unterstützt mehrere Textzeilen, geeignet für lange Dialoge oder Skripte. Beispiel:你好!这是一个测试,展示如何将文本转为自然语音。
- Auswahl von Stimme und Emotion
Die Schnittstelle bietet Dropdown-Menüs mit den verfügbaren Stimmoptionen (z. B. männlich, weiblich) und emotionalen Stilen (z. B. freundlich, ernst). Diese Optionen basieren auf demdata/voices.json
im Gesang antwortendata/vibes.json
Datei-Konfiguration. Nach der Auswahl klicken Sie auf die Schaltfläche "Generieren", und das System ruft die OpenAI Speech API auf, um das Audio zu generieren. - Abspielen und Herunterladen
Das erzeugte Audio wird automatisch auf der Seite abgespielt. Sie können die Audiodatei auch herunterladen. Sie wird standardmäßig im WAV-Format gespeichert und im Projektverzeichnis im Ordneroutput/
Ordner, dessen Dateinamen mitopenaifm_
Beginn und Zeitstempel. - Funktion teilen
Wenn eine PostgreSQL-Datenbank konfiguriert ist, kann die erzeugte Stimme in der Datenbank gespeichert und ein Freigabelink erzeugt werden. Wenn Sie auf die Schaltfläche "Freigeben" klicken, erhalten Sie eine zugängliche URL, unter der andere Benutzer Ihre Stimme ansehen und abspielen können.
Anpassung für Entwickler
openai-fm ist ein Open-Source-Projekt, Entwickler können den Code nach Bedarf ändern. Zum Beispiel:
- Neue Stimme hinzufügen:: Leitartikel
data/voices.json
Hinzufügen neuer Sprachkonfigurationen. - Einstellung der SchnittstelleÄndern Sie NextJS-Komponenten (z.B.
pages/index.js
) oder TailwindCSS-Stile. - Erweiterte Funktionalität: Fügen Sie neue API-Aufrufe hinzu oder integrieren Sie andere Dienste.
Um Code beizusteuern, forken Sie das Repository, erstellen Sie einen Zweig und reichen Sie eine Anfrage ein; lesen Sie die Richtlinien des Projekts, bevor Sie Ihren Beitrag leisten, um sicherzustellen, dass Ihr Code konform ist. [](https://github.com/openai/openai-fm)[](https://github.com/fairy-root/ComfyUI-OpenAI-FM)
caveat
- API-GebührenOpenAI Speech API: Die Nutzung der OpenAI Speech API ist je nach Nutzung kostenpflichtig. Bitte überwachen Sie Ihr API-Kontingent im OpenAI Dashboard.
- SicherheitWenn Sie auf einem öffentlichen Server eingesetzt werden, stellen Sie sicher, dass
.env
Datei wird nicht veröffentlicht, um die Weitergabe von API-Schlüsseln zu verhindern. - Unterstützung der GemeinschaftWenn Sie ein Problem haben, melden Sie einen Fehler auf GitHub und die Community wird Ihnen helfen.
Anwendungsszenario
- Entwickler testen die Sprach-API
Entwickler können openai-fm nutzen, um die Effektivität der OpenAI Speech API schnell zu testen, die Leistung verschiedener Sprach- und Emotionsstile zu validieren und Lösungen zur Anwendungsintegration zu optimieren. - Produktion von Bildungs- und Ausbildungsinhalten
Lehrkräfte oder Ausbilder können Kursskripte in Sprache umwandeln, um natürliche, flüssige Audiodaten für die Verwendung in Online-Kursen oder Lehrvideos zu erzeugen. - Zugänglichkeitshilfen
openai-fm erzeugt Sprachausgaben für sehbehinderte Nutzer, um ihnen den Zugang zu Textinformationen zu erleichtern. - Kreative Inhaltserstellung
Podcast-Produzenten oder Autoren von Inhalten können mit openai-fm personalisierte Stimmen erzeugen und schnell Hörproben erstellen.
QA
- Muss ich für openai-fm bezahlen?
Das Projekt selbst ist kostenlos, aber die Nutzung der OpenAI Speech API erfordert einen gültigen API-Schlüssel und eine nutzungsabhängige Gebühr. Wir empfehlen, sich auf der offiziellen OpenAI-Website über die Preise zu informieren. - Wie kann ich eine neue Sprachoption hinzufügen?
Bearbeiten Sie das Projektverzeichnis unter demdata/voices.json
Datei, um die neue Sprachkonfiguration hinzuzufügen. Nach dem Neustart des Servers wird die neue Stimme im Dropdown-Menü angezeigt. - Muss ich für die Freigabefunktion eine Datenbank verwenden?
Ja, die Freigabefunktion erfordert die Unterstützung der PostgreSQL-Datenbank. Wenn Sie die Datenbank nicht konfigurieren, können Sie trotzdem normal Sprache erzeugen und abspielen. - Ist es möglich, openai-fm auf dem Handy zu nutzen?
Die Weboberfläche von openai-fm unterstützt responsives Design und kann auch in mobilen Browsern genutzt werden, vorausgesetzt, Sie haben eine stabile Internetverbindung.