La technologie de génération multimodale MiniMax innove : référence au sujet, images de portrait de référence pour générer des vidéos cohérentes d'un point de vue stylistique

Tout le monde a un rêve cinématographique dans le cœur - on veut entrer dans différents rôles pour expérimenter la vie au théâtre, ou devenir réalisateur pour chorégraphier chaque série de plans, ou encore écrire sur les possibilités infinies de l'univers parallèle en tant que scénariste.

Conch AI est une machine à fabriquer des rêves qui permet à différentes personnes d'aborder le film d'une manière différente. En ce début d'année, Conch AI propose une nouvelle aide à la création - Subject Reference - aux utilisateurs du monde entier.

 

MiniMax Dernier modèle vidéo auto-développé S2V-01Au moyen de l'outilArchitecture de référence de l'organisme à figure uniqueavec les programmes traditionnelsCoûts d'entrée et de calcul jusqu'à 1%Il suffit de taperUne photo.Cet objectif peut être atteintReproduction fidèle des détails visuelsÉgalement disponibleHaut degré de liberté et de combinabilité. UtilisateurRéduction significative du temps d'attenteafin d'obtenir une haute disponibilité.

La fonction de référence principale est désormais entièrement en ligne dans le monde entier. Vidéo sur la conque La plateforme de création est instantanément expérimentée.

 

Une image en entrée, un blockbuster haute définition en sortie

Dans le domaine de la génération de vidéos d'IA, la question de savoir comment maintenir le réalisme et la stabilité des visages des personnages sous plusieurs angles dans les vidéos dynamiques et comment conserver la cohérence des rôles des personnages lors de la création de clips continus constitue un problème difficile pour l'industrie. Nous fournissons aux utilisateurs une solution optimale grâce à notre modèle vidéo S2V-01 développé par nos soins.

Après avoir sélectionné la fonction "Référence du sujet" dans Conch AI, les utilisateurs n'ont plus qu'à télécharger une photo pour identifier et verrouiller le rôle du sujet. Saisissez le mot-clé dans la zone de texte, vous n'avez pas besoin d'attendre longtemps, vous pouvez générer des vidéos créatives et cohérentes de haute qualité.

Le modèle S2V-01 peut identifier avec précision les caractéristiques faciales telles que le sexe, l'âge, la couleur de peau et la structure des caractéristiques faciales sur les photos, et les personnages générés sont stables et cohérents, et les personnages peuvent être conservés dans chaque image. Le contrôle de l'expression faciale du personnage principal et la texture de la scène sans sujet restent la "spécialité" de Conch AI.

MiniMax多模态生成技术再创新:主体参考,参考人像图片生成风格一致视频

Référence principale + incitation : Gros plan sur un jeune garçon dans une pièce faiblement éclairée, les yeux fixés sur l'écran lumineux d'une console de jeu. La caméra est placée légèrement au-dessus du niveau des yeux et se concentre sur son expression concentrée tandis que ses doigts manipulent agilement la manette. La caméra est placée légèrement au-dessus du niveau des yeux et se concentre sur son expression concentrée tandis que ses doigts manipulent agilement la manette. Un jeu caractère apparaît, s'affranchissant des limites de l'écran.

MiniMax多模态生成技术再创新:主体参考,参考人像图片生成风格一致视频

 

MiniMax多模态生成技术再创新:主体参考,参考人像图片生成风格一致视频

Le créateur @OlivioSarikas a téléchargé un portrait d'anime à l'huile sur toile comme sujet d'une animation qui transporte le spectateur dans un pays de conte de fées.

MiniMax多模态生成技术再创新:主体参考,参考人像图片生成风格一致视频

 

Actuellement, Conch AI est ouvert à la possibilité de référencer une seule personne, ce qui nécessite le téléchargement d'informations faciales reconnaissables en tant que référence faciale générée par le sujet de la vidéo. À l'avenir, Conch AI continuera d'offrir la possibilité de référencer plusieurs personnes, objets et scènes, ainsi que d'autres fonctionnalités plus riches.

 

Réduire considérablement les coûts d'entrée et de calcul, remodeler l'expérience de la création vidéo

Depuis ses débuts, MiniMax n'a cessé d'explorer la capacité de référence des images, y compris les rôles, les styles, etc. Sur la base d'un grand nombre d'explorations techniques, nous pensons que la limite supérieure de l'effet du schéma de référence d'image est suffisamment élevée pour le problème de référence de classe de sujet, et même meilleure que le schéma LoRA (Low-Rank Adaptation) affiné, en tenant compte de l'effet et de l'évolutivité.Nous pensons qu'une bonne technologie doit pouvoir servir un éventail d'utilisateurs aussi large que possible, tout en fonctionnant suffisamment bien pour résoudre des problèmes réels.

Étant donné que le système de référence du sujet de MiniMax ne nécessite qu'une seule image en entrée, il n'y a pas de coûts de calcul et de temps d'attente supplémentaires pour la formation, et le coût de génération est proche de celui des vidéos conventionnelles générées par du texte ou des graphes.Par rapport aux solutions LoRA actuelles, le référencement des sujets réduit à la fois les coûts de saisie et les coûts de calcul à moins d'un pour cent, avec une réduction significative du temps d'attente des utilisateurs et un doublement de l'expérience utilisateur.

MiniMax多模态生成技术再创新:主体参考,参考人像图片生成风格一致视频

Main Reference + Prompt : Une femme vêtue d'une robe élaborée et d'une paire de gants blancs traverse un couloir dans un château médiéval. Elle court en tournant le dos à la caméra, puis regarde en arrière, son expression passant du calme à l'horreur. Elle court en tournant le dos à la caméra, puis regarde en arrière, son expression passant du calme à l'horreur. Le fond du couloir est faiblement éclairé. La caméra suit la femme qui se rapproche et la vue passe du plan moyen au plan rapproché, en se concentrant sur le visage de la femme.

MiniMax多模态生成技术再创新:主体参考,参考人像图片生成风格一致视频

 

Afin de ne conserver que les informations visuelles nécessaires du sujet lui-même (par exemple, les traits du visage humain) dans la vidéo sans l'interférence d'autres informations telles que la posture, l'expression, l'éclairage, etc., MiniMax a continué à optimiser la construction des données, l'architecture du modèle et la stratégie de formation. Dans le modèle S2V-01, qui est déjà en ligne, nous avons obtenu les effets clés des deux aspects en même temps :

  • Reproduction fidèle des détails visuels :Les caractéristiques faciales des personnages dans les vidéos générées présentent un degré élevé de similitude avec les images de référence ;
  • Grande liberté et combinabilité :À l'exception des traits du visage qui représentent l'identité, toutes les autres dimensions ont un degré élevé de liberté. Par exemple, le personnage peut être contrôlé par le texte pour montrer n'importe quelle pose et expression ; le personnage peut être placé dans n'importe quel environnement avec un éclairage naturel et harmonieux.

Grâce à la technologie de référence par sujet, les utilisateurs ne sont plus contraints de résoudre les problèmes de cohérence par tirage au sort et peuvent se concentrer davantage sur l'expression du contenu, ce qui augmente considérablement l'efficacité de la création de contenus vidéo longs.Votre rôle est naturellement cohérent.

 

Les modalités visuelles ouvrent une ère de co-innovation en matière d'IA

La technologie de l'IA a déjà facilité la production de microfilms, de publicités, de variétés, d'animations, d'effets de synthèse et d'autres contenus, mais le plus gros problème est que le corps de la vidéo s'effondre facilement au cours du processus de génération, et que la présentation du contenu est souvent rigide et fragmentée.

Le lancement de la fonction Master Reference permet aux créateurs professionnels de bénéficier d'une présentation visuelle très cohérente et d'une grande souplesse créative, et apportera une innovation révolutionnaire à plusieurs secteurs de la production vidéo, notamment les vidéos courtes et les publicités, de sorte que l'homogénéité et la cohérence ne soient plus un problème.À l'heure actuelle, MiniMax place la fonction de référence de sujet sur la plateforme ouverte sous la forme d'un service API, et continuera à explorer l'aspect de la référence multi-sujet afin de fournir des solutions plus parfaites aux entreprises et aux créateurs professionnels.

En décembre, I2V-01-Live, un modèle vidéo graphique lancé par MiniMax, a été largement acclamé, et le nombre de visites de Conch AI à l'étranger a dépassé les 27 millions, atteignant un nouveau record historique et se plaçant en tête de la liste mondiale des produits vidéo d'IA en décembre.

MiniMax多模态生成技术再创新:主体参考,参考人像图片生成风格一致视频
Liste des produits d'IA vidéo dans le monde décembre 2024

 

La façon dont les gens interagissent avec le monde est intrinsèquement multimodale, de sorte que la compréhension et la génération multimodales sont précisément le lien clé menant à l'AGI et ouvrant l'ère de la cocréation de l'IA. Nous espérons qu'un plus grand nombre d'utilisateurs cocréeront l'intelligence avec MiniMax et profiteront de la joie de la création dans Conch AI. Nous avons préparé un document d'enseignement sur la façon de jouer avec la fonction de référence du sujet, cliquez sur l'article original pour y accéder. Merci à tous ceux qui soutiennent et aiment MiniMax et Conch AI.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...