La génération vidéo Veo 2 de Google s'étend à Gemini et Whisk, élargissant ainsi le territoire de l'outil de création d'IA

Google a récemment annoncé que son modèle de génération de vidéos, Veo 2, a été officiellement intégré dans le système d'exploitation de l'entreprise. Gémeaux Advanced et dans sa plateforme expérimentale Whisk. Les abonnés à Google One AI Premium peuvent désormais générer de courts contenus vidéo directement à partir d'invites textuelles ou d'images existantes.

Veo 2 est présenté par Google comme sa technologie avancée de génération de vidéos, conçue pour convertir des descriptions textuelles en vidéos d'une durée maximale de 8 secondes, d'une résolution de 720p et d'un rapport d'aspect de 16:9 au format MP4. Le modèle est censé être amélioré en termes de compréhension des lois de la physique réaliste et du mouvement humain, et est capable de générer des clips vidéo avec des mouvements fluides, des scènes réalistes et des détails riches, couvrant une gamme variée de sujets et de styles.

谷歌 Veo 2 视频生成登陆 Gemini 与 Whisk,AI 创作工具版图再扩张

 

Génération de texte-vidéo dans Gemini

Dans Gemini Advanced, l'utilisateur peut créer une vidéo en sélectionnant le modèle Veo 2 dans un menu déroulant. Le processus est relativement simple : l'utilisateur entre une description détaillée de la scène et Gemini tente de générer une vidéo. La démo officielle montre différents styles de génération, par exemple :

  • Première scène : Une caméra large et lente balaie une immense caverne glaciaire tandis que deux personnages en combinaison exosquelette blanche la traversent, les lumières de leur casque éclairant des objets gelés ressemblant à des bonbons dans les parois de glace.
    • Lien vers un exemple de vidéo : https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/Gemini_Generated_Video__37_aDEwjss.mp4
  • Scène deux : Animée avec style, une souris aux lunettes surdimensionnées lit des livres à la lumière de champignons rougeoyants dans un confortable repaire forestier.
    • Lien vers un exemple de vidéo : https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/Mouse_Reads_Video_Generated.mp4
  • Scène trois : Vue aérienne de falaises couvertes d'herbe reliées à une plage de sable, avec des vagues clapotant sur le rivage et un pilier de mer protubérant se dressant dans la mer, baigné dans la lueur dorée du lever ou du coucher du soleil.
    • Lien vers un exemple de vidéo : https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/Gemini_Generated_Video__13.mp4
  • Scène quatre : Time-lapse de style somatotropique d'une glace rose, grise et blanche fondant sous un ciel bleu clair.
    • Lien vers un exemple de vidéo : https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/KR_Veo2_4.mp4

Google souligne que plus la description est détaillée, plus l'utilisateur a le contrôle sur la vidéo finale. Cette fonctionnalité offre de nouvelles possibilités pour visualiser rapidement des concepts, raconter de courtes histoires visuelles ou réaliser des combinaisons créatives. Les vidéos générées peuvent être facilement téléchargées sur des plateformes telles que TikTok ou YouTube Shorts via le bouton de partage.

Il convient de noter que Veo 2 génère actuellement des vidéos d'une durée limitée à 8 secondes et d'une résolution de 720p. Bien que cela soit suffisant pour répondre à certains besoins des plateformes vidéo de courte durée ou pour des preuves de concept rapides, ce n'est pas la même chose que ce que fait l'industrie (par exemple, OpenAI), mais ce n'est pas la même chose que ce que fait l'industrie. Sora L'utilisation actuelle de Veo 2 dans Gemini semble plus axée sur une expérience de création légère et instantanée que sur la tendance vers des durées plus longues, des résolutions plus élevées et une plus grande puissance narrative (comme le démontre le modèle). En outre, la fonction a une limite de génération mensuelle, ce qui peut affecter le processus de création pour les utilisateurs intensifs.

La fonction de génération de vidéos est déployée à l'échelle mondiale pour les utilisateurs web et mobiles de Gemini Advanced dans toutes les langues prises en charge par Gemini.

 

Whisk Animate : Faire bouger des images fixes

Outre les vidéos générées par le texte, Google apporte également la puissance de Veo 2 à la plateforme Whisk avec Whisk Animate, un projet expérimental lancé par Google Labs en décembre dernier qui permet aux utilisateurs d'explorer et de visualiser des idées en combinant des textes et des images.

Désormais, grâce à Whisk Animate, les abonnés à Google One AI Premium peuvent transformer les images fixes qu'ils ont créées ou téléchargées en vidéos animées de 8 secondes. Il s'agit d'un outil pratique pour ceux qui souhaitent ajouter du mouvement à leurs images existantes. Cette fonctionnalité est actuellement disponible dans plus de 60 pays.

  • Lien vers la vidéo d'introduction de Whisk Animate : https://www.youtube.com/watch?v=2yYDI-p5aGs (le lien original est une vignette, le lien présumé de visualisation sur YouTube est fourni ici)

L'intégration de capacités de génération de vidéos dans Gemini et Whisk illustre la stratégie de Google, qui cherche à intégrer des outils de création d'IA dans son écosystème existant et ses services d'abonnement. Cela permet d'abaisser la barrière d'accès et d'utilisation des capacités d'IA avancées pour les utilisateurs, mais aussi de les lier à des abonnements payants spécifiques.

 

Considérations de sécurité et responsabilité de l'industrie

Parallèlement au lancement de la fonction de génération de vidéos, Google a également mentionné les mesures de sécurité qu'il a prises. Il s'agit notamment d'un "Red Teaming" et d'une évaluation approfondis afin d'empêcher la génération de contenus qui enfreignent ses règles.

L'une des principales initiatives est que toutes les vidéos générées par Veo 2 seront dotées d'un filigrane numérique SynthID. Ce filigrane est conçu pour être intégré dans chaque image de la vidéo et permet d'identifier que la vidéo a été générée par l'IA. Compte tenu de la prévalence croissante des contenus générés par l'IA, dont l'authenticité est difficile à discerner, l'adoption d'une technologie de filigrane fiable est essentielle pour renforcer la transparence et lutter contre la désinformation, et fait partie intégrante d'un développement responsable de l'IA.

Google reconnaît également que, comme tous les outils d'IA générative, les résultats de Gemini sont largement dictés par les invites de l'utilisateur, qu'ils peuvent générer des contenus choquants dans certains cas et qu'ils encouragent les utilisateurs à fournir des informations via le bouton de retour d'information afin d'assurer une amélioration continue.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...