Allgemeine Einführung
TEN Agent ist ein quelloffenes Echtzeit-Framework für multimodale Intelligenz, das OpenAI Realtime API und RTC integriert, um mehrere Funktionen wie Wetterabfrage, Websuche, visuelle Verarbeitung und RAG (Retrieval Augmented Generation) zu unterstützen. Das Framework zielt darauf ab, leistungsstarke Audio- und Video-Interaktionslösungen mit geringer Latenz für komplexe KI-Anwendungsszenarien bereitzustellen.
Die zweitausgereifteste interaktive multimodale Echtzeit-Intelligenz, die wir bisher gesehen haben, hat einen sehr reibungslosen Sprachkommunikationsprozess.
Funktionsliste
- Multimodale Interaktion in EchtzeitUnterstützt die Echtzeitverarbeitung und Interaktion von Audio, Video und Text.
- OpenAI-Echtzeit-API-IntegrationBietet Sprachdialogfunktionen mit niedriger Latenz.
- RTC AI-RauschunterdrückungRauschunterdrückung durch KI-Algorithmen zur Verbesserung der Audioqualität.
- Wetter-AnfrageIntegrierte Wetterabfragefunktion zur Bereitstellung von Echtzeit-Wetterinformationen.
- Suche im InternetUnterstützt den Zugang zu Informationen über die Websuche.
- visuelle VerarbeitungUnterstützt Bilderkennungs- und -verarbeitungsfunktionen.
- RAG-FunktionenAntworten mit Hilfe lokaler Dokumente durch Retrieval-unterstützte Generierungstechniken geben.
- Mehrsprachige UnterstützungUnterstützt die erweiterte Entwicklung in mehreren Programmiersprachen wie C++, Go, Python usw.
- Plattformübergreifende UnterstützungKompatibel mit Windows, Mac, Linux und mobilen Geräten.
Hilfe verwenden
Ablauf der Installation
- Vorbereiten der Umgebung::
- Stellen Sie sicher, dass Docker und Docker Compose installiert sind.
- Beziehen Sie die Agora-App-ID und das App-Zertifikat (wenn Zertifikate in der Agora-Konsole aktiviert sind).
- Holen Sie sich den OpenAI-API-Schlüssel, sowie die API-Schlüssel für Deepgram ASR und FishAudio TTS.
- Umgebungsvariablen konfigurieren::
- Verwenden Sie im Stammverzeichnis des Projekts den Befehl
cp .env.example .env
Befehl zum Erstellen von.env
Dokumentation. - zeigen (eine Eintrittskarte)
.env
Datei mit dem erforderlichen API-Schlüssel und der Konfiguration.
- Verwenden Sie im Stammverzeichnis des Projekts den Befehl
- Start-Container::
- Führen Sie es im Stammverzeichnis des Projekts aus
docker compose up
Befehl, um den Container zu starten. - Oder verwenden Sie
docker compose up -d
um den Container im abgetrennten Modus zu starten.
- Führen Sie es im Stammverzeichnis des Projekts aus
- Gebäudeintelligenz::
- Öffnen Sie ein neues Terminalfenster, geben Sie den Container ein und erstellen Sie die Intelligenzen.
- Sobald die Erstellung abgeschlossen ist, starten Sie den Server an Port 8080:
make run-server
.
- Zugangsschnittstelle::
- In Ihrem Browser öffnen
localhost:3000
Der TEN-Agent wird in Zukunft zum ersten Mal zum Einsatz kommen. - Öffnen Sie eine weitere Registerkarte und besuchen Sie
localhost:3001
Mit Graph Designer können Sie Erweiterungen erstellen, verbinden und bearbeiten.
- In Ihrem Browser öffnen
Funktion Betriebsanleitung
- Multimodale Interaktion in Echtzeit::
- Sprachdialog mit niedriger Latenz durch die integrierte OpenAI Realtime API.
- Verwenden Sie die AI-Rauschunterdrückungsfunktion des RTC, um eine klare und stabile Audioqualität zu gewährleisten.
- Wetter-Anfrage::
- Geben Sie den Namen der Stadt, die Sie suchen möchten, in die Schnittstelle ein, um Echtzeit-Wetterinformationen zu erhalten.
- Suche im Internet::
- Geben Sie Stichworte in das Suchfeld ein, und das System durchsucht das Internet nach relevanten Informationen.
- visuelle Verarbeitung::
- Laden Sie Bilddateien hoch, und das System führt automatisch die Bilderkennung und -verarbeitung durch.
- RAG-Funktionen::
- Mit Retrieval-unterstützten Generierungstechniken werden Fragen eingegeben, und das System liefert die Antworten anhand lokaler Dokumente.
- Mehrsprachige Unterstützung::
- Unterstützt die erweiterte Entwicklung mit C++, Go, Python und anderen Programmiersprachen.
- Plattformübergreifende Unterstützung::
- Dank der Kompatibilität mit Windows, Mac, Linux und mobilen Geräten können Benutzer TEN Agent nahtlos auf verschiedenen Plattformen nutzen.