Tavus lance une plateforme d'IVE émotionnellement intelligente : trois modèles de base pour une interaction vidéo en temps réel avec les personnes numériques

Nouvelles de l'IAMise à jour il y a 6 mois Cercle de partage de l'IA

8.9K 00

introductif

Le domaine de l'interaction homme-machine subit une profonde transformation, et Tavus, une entreprise spécialisée dans le développement de technologies avancées d'interaction avec l'IA, est à l'origine de ce changement. L'année dernière, Tavus a lancé ce qui était alors appelé l'interface vidéo conversationnelle (CVI) la plus rapide au monde, ouvrant la voie aux développeurs pour créer des applications d'interaction vidéo en temps réel.

Aujourd'hui, Tavus a franchi une nouvelle étape en lançant sa nouvelle plateforme CVI pour l'intelligence émotionnelle. Au cœur de cette plateforme se trouvent trois modèles d'IA révolutionnaires : Phoenix-3, Raven-0 et Sparrow-0, qui, ensemble, donnent à l'IA la capacité de percevoir, de comprendre et de s'exprimer comme jamais auparavant.

Plate-forme de l'IVE : analyse technique

La nouvelle plateforme de l'IVE est plus qu'un outil, c'est un écosystème complet conçu pour rendre l'interaction homme-machine plus naturelle et plus efficace. Elle combine la perception visuelle, le traitement du langage naturel et des technologies de rendu avancées pour obtenir les caractéristiques clés suivantes :

En temps réel : La plateforme CVI est optimisée pour les scénarios à faible latence et peut prendre en charge des conversations vidéo fluides en temps réel.
L'intelligence émotionnelle : Grâce à des modèles d'apprentissage profond, la plateforme CVI est capable de comprendre les émotions humaines et de réagir en conséquence.
Rendu intégral du visage : Plus qu'une simple synchronisation labiale, la plateforme CVI est capable de générer des expressions subtiles sur l'ensemble du visage pour une image IA plus réaliste.
Facilité d'utilisation : Tavus Fournit une API propre permettant aux développeurs d'intégrer facilement la plateforme de l'IVE dans leurs applications.

Modèles de base : Phoenix-3, Raven-0 et Sparrow-0

L'intelligence émotionnelle et les capacités d'interaction en temps réel de la plateforme CVI sont rendues possibles grâce à trois modèles fondamentaux développés par Tavus :

Phoenix-3 Beta : rendu de visage complet basé sur la diffusion gaussienne

Phoenix-3 est un moteur de rendu basé sur un modèle de diffusion gaussien. Alors que les techniques traditionnelles d'animation faciale se concentrent généralement sur le mouvement des lèvres, Phoenix-3 est capable de générer des expressions subtiles de l'ensemble du visage, y compris le mouvement des sourcils, des joues, des yeux et de la bouche.

Les avantages techniques de Phoenix-3 sont les suivants :

Modèles de diffusion gaussiens : Le modèle de diffusion gaussien est capable de générer des images plus stables et de meilleure qualité que le modèle GAN (Generative Adversarial Network) traditionnel.
Contrôle intégral du visage : Au lieu de contrôler uniquement les lèvres, Phoenix-3 est capable de contrôler finement les mouvements musculaires de l'ensemble du visage, ce qui permet d'obtenir des expressions plus riches.
Rendu en temps réel : Phoenix-3 est optimisé pour le rendu en temps réel et génère des animations faciales de haute qualité avec une faible latence.

Raven-0 : Perception visuelle et compréhension émotionnelle

Raven-0 est un modèle de perception visuelle qui donne à la plateforme de l'IVE la capacité de "voir" et de "comprendre". Raven-0 reconnaît non seulement les objets, mais capte également les mouvements, les gestes et les micro-expressions de l'être humain pour en déduire l'état émotionnel de l'utilisateur. l'état émotionnel de l'utilisateur.

Les points forts techniques du Raven-0 sont les suivants :

Traitement visuel continu : Le Raven-0 est capable de traiter des flux vidéo continus, de suivre les mouvements de l'utilisateur et les changements d'expression en temps réel.
Fusion multimodale : Raven-0 peut combiner des informations visuelles avec des informations provenant d'autres modalités (par exemple, la parole) pour comprendre plus précisément les intentions de l'utilisateur.
Reconnaissance des émotions : Le Raven-0 reconnaît une large gamme d'émotions de base et est capable de saisir des changements émotionnels plus subtils.

Sparrow-0 : Gestion du dialogue rotatif basée sur un transformateur

Sparrow-0 est un logiciel basé sur le principe de la Transformateur le moteur de gestion du dialogue du modèle. Il est chargé de contrôler le rythme du dialogue et de décider quand l'IA doit parler et quand elle doit écouter.

La technologie de Sparrow-0 se caractérise par :

Modèle de transformateur : Le modèle Transformer a connu un énorme succès dans le domaine du traitement du langage naturel, et Sparrow-0 l'applique à la gestion du dialogue pour permettre une meilleure compréhension du contexte et de la sémantique du dialogue.
Mécanismes de rotation : Sparrow-0 est capable de prévoir les tournures du dialogue afin d'éviter d'interrompre l'utilisateur ou d'avoir de longs silences.
Réponse à faible latence : Sparrow-0 est optimisé pour répondre en moins de 600 millisecondes, ce qui garantit des conversations fluides.

D'un point de vue technique, Sparrow-0 utilise le modèle Transformer, une architecture d'apprentissage profond conçue à l'origine pour les tâches de traitement du langage naturel. Elle excelle dans le traitement de données séquentielles, ce qui la rend bien adaptée à la compréhension du flux et du contexte d'un dialogue. En analysant les modèles de dialogue, y compris l'intonation, le rythme et la sémantique, Sparrow-0 peut déterminer intelligemment le meilleur moment pour que l'IA réponde.

Modèle de synergie : Développer l'intelligence émotionnelle

Au lieu de travailler indépendamment, Phoenix-3, Raven-0 et Sparrow-0 collaborent étroitement pour créer un système d'interaction IA émotionnellement intelligent. Raven-0 est responsable de la vision et de la compréhension, Sparrow-0 de l'écoute et de la parole, et Phoenix-3 de l'expression. Raven-0 est chargé de "voir" et de "comprendre", Sparrow-0 est chargé d'"écouter" et de "parler", et Phoenix-3 est chargé de "s'exprimer".

Formule de calcul du temps de réponse :

Temps de retard total = T_perceptuel + T_{traiter avec} + T_{ajouter des lavis d'encre ou de couleur à un dessin (peinture chinoise)}

T_perceptuelTemps de traitement : temps nécessaire au modèle Raven-0 pour traiter l'entrée visuelle et en extraire les caractéristiques pertinentes.
T_{traiter avec}Temps de réponse : temps nécessaire au modèle Sparrow-0 pour analyser le contexte du dialogue et générer une réponse.
T_{ajouter des lavis d'encre ou de couleur à un dessin (peinture chinoise)}Temps nécessaire pour générer des animations faciales pour le modèle Phoenix-3 et rendre le résultat final.

L'expérience de l'IVE : interagir avec Charlie

Charlie est plus qu'un simple chatbot, il est capable de comprendre le contexte, de reconnaître les intentions et d'engager un dialogue perspicace.

En interagissant avec Charlie, les utilisateurs peuvent découvrir une toute nouvelle façon d'interagir avec la plateforme de l'IVE. Charlie est capable de faire des recherches sur le web, d'analyser le contenu à l'écran et de générer des images pour une véritable interaction multimodale.

Développeur : Construire des applications émotionnellement intelligentes

Tavus fournit aux développeurs une API facile à utiliser pour intégrer la plateforme de l'IVE dans leurs applications. Qu'il s'agisse de coaching en IA, de service à la clientèle ou de formation interactive à la vente, la plateforme CVI aide les développeurs à créer des applications plus attrayantes.

Résumé et perspectives

Le lancement par Tavus de la plateforme CVI marque une étape importante dans le domaine de l'interaction homme-machine. En combinant des modèles d'IA avancés avec une technologie de rendu en temps réel, la plateforme CVI fournit aux développeurs un outil puissant qui leur permet de créer des applications d'IA plus naturelles, plus intelligentes et plus émotionnelles.

Comme la technologie de l'IA continue d'évoluer, nous pouvons nous attendre à ce que la plateforme de l'IVE joue un rôle encore plus important à l'avenir, en changeant la façon dont nous interagissons avec les machines et en apportant plus d'innovation dans les domaines de l'éducation, des soins de santé, du divertissement et plus encore.