Allgemeine Einführung
OpenAI Realtime Agents ist ein Open-Source-Projekt, das zeigen soll, wie die Echtzeit-APIs von OpenAI genutzt werden können, um multi-intelligente Körpersprachanwendungen zu entwickeln. Es bietet ein intelligentes High-Level-Körpermodell (entlehnt aus OpenAI Swarm), das es Entwicklern ermöglicht, komplexe multi-intelligente Körpersprachsysteme in kurzer Zeit zu erstellen. Das Projekt zeigt anhand von Beispielen, wie man sequentielle Übergaben zwischen Intelligenzen durchführt, wie man im Hintergrund ein intelligenteres Modell aufbaut und wie man das Modell einem Zustandsautomaten für Aufgaben wie die Bestätigung von Benutzerinformationen Zeichen für Zeichen folgen lässt. Dies ist eine wertvolle Ressource für Entwickler, die schnell Prototypen für multi-intelligente Körper-Echtzeit-Sprachanwendungen erstellen wollen.
OpenAI bietet eine Referenzimplementierung für die Erstellung und Orchestrierung intelligenter Muster unter Verwendung von Echtzeit-APIs. Mit diesem Repository können Sie in weniger als 20 Minuten einen Prototyp einer Sprachanwendung mit einem multi-intelligenten Körperprozess erstellen! Die Entwicklung mit Echtzeit-APIs kann aufgrund der niedrigen Latenz und der synchronen Natur der Sprachinteraktion kompliziert sein. Dieses Repository enthält bewährte Verfahren, die wir gelernt haben, um diese Komplexität zu bewältigen.
Funktionsliste
- Intelligente Stelle SequenzübergabeErmöglicht die sequentielle Übergabe von Intelligenzen auf der Grundlage von vordefinierten Intelligenzgraphen.
- HintergrundverbesserungEs ist möglich, die Aufgabe auf fortgeschrittenere Modelle (z. B. o1-mini) zu erweitern, die sich mit Entscheidungen mit hohem Risiko befassen.
- Verarbeitung von ZustandsautomatenGenaue Erfassung und Validierung von Informationen, wie z. B. Benutzernamen und Telefonnummern, indem das Modell aufgefordert wird, einem Zustandsautomaten zu folgen.
- Schnelles PrototypingBietet Tools zum schnellen Erstellen und Testen von Multi-Intelligenz-Echtzeit-Sprachanwendungen.
- Flexibilität bei der KonfigurationBenutzer können ihr eigenes intelligentes Körperverhalten und ihren eigenen Interaktionsablauf konfigurieren.
Hilfe verwenden
Installation und Konfiguration
- Klon-Lager::
git clone https://github.com/openai/openai-realtime-agents.git cd openai-echtzeit-agenten
- Umgebung Konfiguration::
- Stellen Sie sicher, dass Sie Node.js und npm installiert haben.
- ausnutzennpm-InstallationInstallieren Sie alle erforderlichen Abhängigkeitspakete.
- Starten des lokalen Servers::
npm-Start
Dadurch wird ein lokaler Server gestartet, auf den Sie in Ihrem Browser zugreifen können, indem Sie diehttp://localhost:3000App ansehen.
Richtlinien für die Verwendung
Intelligenzen durchsuchen und auswählen::
- Öffnen Sie Ihren Browser und navigieren Sie zuhttp://localhost:3000**. **
- Sie sehen eine Schnittstelle mit einem Dropdown-Menü "Szenario" und einem Dropdown-Menü "Agent", mit dem Sie verschiedene Szenarien von Intelligenzen und spezifischen Intelligenzen auswählen können.
interaktives Erlebnis::
- Szene auswählenSzenario: Wählen Sie im Menü "Szenario" ein vordefiniertes Szenario aus, z. B. "simpleExample" oder "customerServiceRetail ".
- Die Wahl eines intelligenten KörpersAgent": Wählen Sie im Menü "Agent" die Intelligenz aus, mit der Sie beginnen möchten, z. B. "frontDeskAuthentication" oder "customerServiceRetail". customerServiceRetail".
- Einen Dialog beginnenStarten Sie die Interaktion mit einem intelligenten Körper, indem Sie Text über die Schnittstelle oder direkt per Spracheingabe (sofern unterstützt) eingeben. Die Intelligenz wird auf Ihre Eingaben reagieren und Sie möglicherweise an eine andere Intelligenz für komplexere Aufgaben weiterleiten.
Detaillierte Bedienung der Funktionen
- sequentielle ÜbergabeWenn Sie von einer Intelligenz zu einer anderen wechseln müssen, z. B. von der Authentifizierung an der Rezeption zum Kundendienst, wickelt das System diese Übergabe automatisch ab. Vergewissern Sie sich, dass die Konfiguration jeder intelligenten Stelle korrekt in derdownstreamAgents.
- HintergrundverbesserungBei komplexen oder risikoreichen Aufgaben können die Intelligenzen automatisch einem leistungsfähigeren Modell zur Bearbeitung zugewiesen werden. So ruft das System beispielsweise das Modell o1-mini auf, wenn die Identität eines Nutzers genau überprüft oder eine Rücksendung bearbeitet werden muss.
- Verarbeitung von ZustandsautomatenBei Aufgaben, die eine zeichenweise Bestätigung erfordern, wie z. B. die Eingabe persönlicher Daten, führt der Smart Body den Benutzer Schritt für Schritt durch eine Zustandsmaschine, um sicherzustellen, dass jedes Zeichen oder jede Information korrekt ist. Der Benutzer erhält während des Eingabevorgangs ein Echtzeit-Feedback, z. B. "Bitte bestätigen Sie, dass Ihr Nachname X ist".
- Intelligente Körper konfigurierenDie Konfigurationsdateien für die Intelligenzen finden Sie im Verzeichnis src/app/agentConfigs/. Durch die Bearbeitung dieser Dateien können Sie das Verhalten der Intelligenzen ändern, neue Intelligenzen hinzufügen oder die Logik der vorhandenen Intelligenzen anpassen.
Tipps für Entwickler
- Um das Verhalten der Intelligenzen zu erweitern oder zu verändern, empfiehlt es sich, zunächst die bestehendenagentConfigsDatei, und übergeben Sie dann dieagent_transferHilfsmittel für die Übergabe zwischen verschiedenen Intelligenzen.
- Alle Interaktionen und Zustandsänderungen zwischen den Intelligenzen werden im Abschnitt "Conversation Transcript" der Benutzeroberfläche angezeigt, um die Fehlersuche und Verbesserung zu erleichtern.
Mit diesen Schritten und Funktionen im Detail können Sie schnell loslegen und Ihre eigene Multi-Intelligenz-Körper-Sprachinteraktionsanwendung mit OpenAI Realtime Agents erstellen.