TEN Agent : un cadre de corps intelligent multimodal en temps réel qui prend en charge le dialogue vocal et vidéo sans latence avec des corps intelligents.
Introduction générale
TEN Agent est un cadre d'intelligence multimodale en temps réel open source qui intègre OpenAI Realtime API et RTC pour prendre en charge de multiples fonctions telles que l'interrogation météorologique, la recherche sur le web, le traitement visuel et RAG (Retrieval Augmented Generation). Le cadre vise à fournir des solutions d'interaction audio et vidéo à haute performance et à faible latence pour les scénarios d'application complexes de l'IA.
La deuxième intelligence interactive multimodale en temps réel la plus aboutie observée jusqu'à présent est dotée d'un processus de communication vocale très fluide.

Expérience en ligne : https://agent.theten.ai/
Liste des fonctions
- Interaction multimodale en temps réelLe système de gestion de l'information de l'Union européenne (UE) est un système de gestion de l'information de l'Union européenne (UE).
- Intégration de l'API OpenAI en temps réelLa technologie de l'information est un élément essentiel de la gestion de l'information : elle offre des capacités de dialogue vocal à faible latence.
- Suppression du bruit RTC AIL'élimination du bruit grâce à des algorithmes d'intelligence artificielle pour améliorer la qualité du son.
- Demande de renseignements météorologiquesFonction d'interrogation météorologique intégrée pour fournir des informations météorologiques en temps réel.
- Recherche sur InternetLe site web de la Commission européenne : Il facilite l'accès à l'information par le biais de recherches sur le web.
- traitement visuelLes fonctions de reconnaissance et de traitement de l'image sont prises en charge.
- Fonctions du RAGLes services d'aide à la décision : fournir des réponses en utilisant des documents locaux grâce à des techniques de génération améliorées par la recherche d'informations.
- Prise en charge multilingueLe système de gestion de l'information (SGI) permet d'étendre le développement à de nombreux langages de programmation tels que C++, Go, Python, etc.
- Support multiplateformeCompatible avec Windows, Mac, Linux et les appareils mobiles.
Utiliser l'aide
Processus d'installation
- Préparation de l'environnement: :
- Assurez-vous que Docker et Docker Compose sont installés.
- Obtenir l'identifiant et le certificat de l'application Agora (si les certificats sont activés dans la console Agora).
- Obtenez la clé API OpenAI, ainsi que les clés API pour Deepgram ASR et FishAudio TTS.
- Configuration des variables d'environnement: :
- Dans le répertoire racine du projet, utilisez la commande
cp .env.example .env
pour créer.env
Documentation. - spectacle (un billet)
.env
avec la clé API et la configuration requises.
- Dans le répertoire racine du projet, utilisez la commande
- Conteneur de lancement: :
- Exécutez-le dans le répertoire racine du projet
docker compose up
pour démarrer le conteneur. - Ou utiliser
docker compose up -d
pour démarrer le conteneur en mode détaché.
- Exécutez-le dans le répertoire racine du projet
- Intelligence économique: :
- Ouvrez une nouvelle fenêtre de terminal, entrez dans le conteneur et construisez les intelligences.
- Une fois la compilation terminée, exécutez le serveur sur le port 8080 :
make run-server
.
- interface d'accès: :
- Ouvrir dans votre navigateur
localhost:3000
L'agent RTE sera utilisé pour la première fois à l'avenir. - Ouvrez un autre onglet et visitez
localhost:3001
Le Graph Designer permet de créer, de connecter et d'éditer des extensions.
- Ouvrir dans votre navigateur
Guide d'utilisation des fonctions
- Interaction multimodale en temps réel: :
- Dialogue voix-parole à faible latence grâce à l'API OpenAI Realtime intégrée.
- Utilisez la fonction de suppression du bruit AI de la RTC pour garantir une qualité audio claire et stable.
- Demande de renseignements météorologiques: :
- Saisissez le nom de la ville que vous souhaitez rechercher dans l'interface pour obtenir des informations météorologiques en temps réel.
- Recherche sur Internet: :
- Saisissez des mots-clés dans le champ de recherche et le système effectuera une recherche sur le web pour obtenir des informations pertinentes.
- traitement visuel: :
- Téléchargez des fichiers d'images et le système effectuera automatiquement la reconnaissance et le traitement des images.
- Fonctions du RAG: :
- Avec les techniques de génération assistée par récupération, les questions sont saisies et le système fournit des réponses à l'aide des documents locaux.
- Prise en charge multilingue: :
- Il permet un développement étendu à l'aide de C++, Go, Python et d'autres langages de programmation.
- Support multiplateforme: :
- Compatible avec Windows, Mac, Linux et les appareils mobiles, les utilisateurs peuvent utiliser TEN Agent en toute transparence sur différentes plateformes.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...