Allgemeine Einführung
OpenAI Realtime WebRTC Python ist eine professionelle Python-Bibliothek, die Entwicklern eine vollständige Lösung für die Sprachinteraktion mit der OpenAI Realtime API bietet. Das Projekt basiert auf der WebRTC-Technologie, die Echtzeit-Audioübertragungsfunktionen mit niedriger Latenz ermöglicht. Es unterstützt nicht nur die automatische Verwaltung von Audiogeräten und die Konvertierung von Abtastraten, sondern bietet auch einen Mechanismus zur Verwaltung von Audiopuffern. Das Projekt ist Open Source unter der MIT-Lizenz und unterstützt mehrere Betriebssystemplattformen wie Windows, macOS und Linux. Durch die Bibliothek können Entwickler leicht implementieren Echtzeit-Spracherkennung, Audio-Stream-Verarbeitung und andere erweiterte Funktionen, besonders geeignet für den Aufbau von Anwendungen, die Echtzeit-Sprach-Interaktion erfordern.
Funktionsliste
- Echtzeit-Audiokommunikation mit niedriger Latenz auf Basis von WebRTC
- Unterstützung für die neueste Realtime-API-Schnittstelle von OpenAI
- Automatische Verwaltung und Konfiguration von intelligenten Audiogeräten
- Adaptive Audio-Abtastratenumwandlung
- Professionelles Audio-Puffer-Management-System
- Unterstützt das Anhalten und Wiederaufnehmen von Audiostreams
- Asynchrone Audioverarbeitung und Ereignis-Rückrufmechanismus
- Integrierte Audio-zu-Text-Funktion
Hilfe verwenden
Vorbereitung der Umwelt
- Systemanforderungen
- Python 3.7 oder höher
- Unterstützt die Betriebssysteme Windows, macOS und Linux
- Sicherstellen, dass das System über eine Audioausrüstung verfügt
- Installationsvorgang
# Klonen Sie den Projektcode git clone https://github.com/realtime-ai/openai-realtime-webrtc-python.git cd openai-echtzeit-webrtc-python # Erstellen und Aktivieren der virtuellen Umgebung python -m venv venv source venv/bin/activate # Linux/macOS-System # oder auf Windows-Systemen: # . \venv\Skripte\aktivieren # Abhängigkeiten installieren pip install -r anforderungen.txt #-Installation im Entwicklungsmodus pip install -e .
Konfigurationseinstellungen
- Konfiguration der Umgebungsvariablen
- Erstellen Sie im Stammverzeichnis des Projekts die Datei
.env
Papiere - Fügen Sie den OpenAI-API-Schlüssel hinzu:
OPENAI_API_KEY=Ihr-api-Schlüssel-hier
- Erstellen Sie im Stammverzeichnis des Projekts die Datei
Grundlegendes Nutzungsverfahren
- Erstellen einer Client-Instanz
asyncio importieren from openai_echtzeit_webrtc import OpenAIWebRTCClient async def main(): client = OpenAIWebRTCClient() client = OpenAIWebRTCClient( model="gpt-4o-realtime-preview-2024-12-17" )
- Einstellung der Rückruffunktion
def on_transcription(text: str). print(f "Transkriptionstext: {text}") client.on_transcription = on_transcription
- Audio-Streaming starten
versuchen. # Audio-Streaming starten await client.start_streaming() # Halten Sie die Verbindung aufrecht while True: await asyncio.sleep(1) await asyncio.sleep(1) except KeyboardInterrupt: # Audio-Streaming beenden. # Beenden Sie das Audio-Streaming await client.stop_streaming()
Erweiterte Funktion Verwendung
- Verwaltung von Audiogeräten
- Das System erkennt und verwaltet automatisch die verfügbaren Audioeingabegeräte
- Unterstützt das dynamische Umschalten von Audiogeräten
- Automatische Handhabung der Abtastratenumwandlung
- Audioflusskontrolle
- Unterstützt das Anhalten/Wiederaufnehmen von Audio-Streaming zu jeder Zeit
- Bietet Audio-Puffer-Management
- Automatische Behandlung von Netzlatenz und Jitter
- Fehlerbehandlung und Überwachung
- Integrierte Mechanismen zur Fehlererkennung und Ausnahmebehandlung
- Unterstützt die Überwachung der Audioqualität
- Detaillierte Informationen zur Fehlersuche bereitstellen
caveat
- Gewährleistung einer stabilen Netzwerkkonnektivität
- Regelmäßige Überprüfung der Gültigkeit des API-Schlüssels
- Überwachen Sie den Status Ihrer Audiogeräte.
- Angemessene Kontrolle des Zeitpunkts für das Starten und Stoppen des Audiostroms