TokenVerse : Google ouvre Whisk, un outil créatif permettant de mélanger plusieurs styles d'images

1) Introduction : une nouvelle ère de génération d'images

À l'ère du numérique, la technologie de génération d'images a fait des progrès impressionnants. Que vous soyez un concepteur, un artiste ou une personne ordinaire souhaitant créer un contenu personnalisé, les outils de génération d'images peuvent vous aider à donner vie à vos idées. Cependant, les méthodes traditionnelles de génération d'images présentent souvent des limites, comme la difficulté à gérer des combinaisons complexes d'éléments visuels ou la nécessité de suivre des étapes fastidieuses.

TokenVerse L'émergence de la génération d'images a ouvert un nouvel éventail de possibilités. Elle permet non seulement d'extraire différents éléments visuels d'une ou de plusieurs photos, mais aussi de les combiner librement pour générer une nouvelle image créative. Et ce qui est encore plus passionnant, c'est queTokenVerse est le cadre open source de Whisk.Cela signifie qu'il hérite de la puissance et de la flexibilité de Whisk, tout en offrant aux utilisateurs une plus grande marge de manœuvre pour la personnalisation et l'expansion.

Texte original :https://arxiv.org/pdf/2501.12224

 

2) Qu'est-ce que TokenVerse ?

Imaginez cela.Vous souhaitez créer une image quiIl y a ton chiot préféré dedans,Son jouet favori, la balle.et un arrière-plan spécial quiComme un parc ensoleillé.Les méthodes traditionnelles peuvent nécessiterIl vous est demandé de les générer séparémentÉléments.Il faut ensuite les assembler manuellement.Mais maintenant.J'ai une solution ! TokenVerse(math.) genreVous pouvez faire tout cela facilement.

TokenVerse est une nouvelle approche de la génération d'images quiIl vous permet de créer une liste à partir d'une seule feuille ou d'un seul fichier.L'extraction à partir de plusieurs photos neLes mêmes éléments visuels (plus deTels que des objets,Posture,Léger,matériaux, etc.)Ces éléments sont ensuite librement combinésEn créer un nouveau,Images créatives.

Fonctions essentielles :

1.Extraction d'éléments multiples: :A partir d'une ou plusieurs photosIdentifier et extraire les différentsLes éléments visuels de la
2.combinaison libre: :Combinant harmonieusement ces éléments, leGénère une toute nouvelle image.
3.Aucune opération compliquée n'est nécessaire: :Pas besoin de segmenter manuellement les imagesOu fournir des conseils avisésParole.

 

3) Comment fonctionne TokenVerse ?

3.1 Comprendre les images et le texte

TokenVerse utilise une méthode appelée DiT (Transformateur de diffusion) des modèles avancés.Ce modèle permet simultanémentTraitement des images et des messages textuelsMessage.En particulier.Il passe par les étapes suivantes pour comprendre vos besoins :

1.Analyser des textes: :Lorsque vous saisissez une description(par exemple, "unUn chiot jouant dans le parc.ball") lorsqueLe modèle analyse le sens de chaque mot.
2.Identifier les éléments visuels: :Le modèle reconnaîtra le texteLes différentes visions mentionnées dansÉléments.Comme "chiot","Ball" et "Park".
3.Apprentissage Orientation personnalisée: :Pour chaque élément visuel, leLe modèle sera exécuté dans un fichier appelé espace de modulation Trouver l'espace virtuel de laune direction particulière.Cette direction représente queCaractéristiques uniques des éléments.

3.2 L'espace de modulation : une arme secrète pour la génération d'images

L'espace de modulation est un espace spécial quiLe modèle affine ici l'image.En réorientant cet espace dans leLes modèles peuvent modifier certaines caractéristiques d'une image quiPar exemple, les couleurs,Forme,Posture, etc.

  • Espace de modulation global (M): :affectant tous les éléments de l'image entière.Mais elle peut entraîner des changements non désirés.
  • L'espace de modulation pour chaque marqueur (M+): :n'affectant que des éléments visuels spécifiques.Un contrôle plus précis.
TokenVerse:谷歌开源了多图风格混合创意工具 Whisk

Fig. 2 : Orientation de l'espace de modulation global ( M ) et de l'espace de modulation ( M + ) pour chaque marqueur.

 

3.3 Isolation conceptuelle : éviter les interférences entre les éléments

Pour s'assurer que chaque visuelLes éléments peuvent tous être mentionnés avec précisionPrendre et combiner.TokenVerse utilise une méthode appelée l'isolement conceptuel La technologie.Cela revient à donner à chaque élémentAttribuer un "chambre".Empêchez-les d'interférer les uns avec les autres.

 

4. les avantages de TokenVerse

4.1 Le pouvoir des mouchards

  • Génération d'images de haute qualitéWhisk est connu pour ses capacités de génération d'images de haute qualité, dont TokenVerse a hérité.
  • Capacités de traitement de texte enrichiLe Whisk est capable de traiter des invites textuelles complexes, et TokenVerse est donc capable de comprendre un texte descriptif complexe.
  • évolutivitéTokenVerse : En tant que projet open source, l'extensibilité de TokenVerse permet de le personnaliser et de l'étendre en fonction des besoins de l'utilisateur.

4.2 Facilité d'utilisation

  • Aucune compétence spécialisée n'est requiseLe logiciel est facile à utiliser : il n'est pas nécessaire d'être un concepteur ou un programmeur professionnel pour l'utiliser facilement.
  • Aucune opération compliquée n'est nécessaireIl suffit d'une simple description textuelle et de quelques images de référence, et TokenVerse fait le reste.

4.3 De fortes capacités de personnalisation

  • Support multi-élémentsTokenVerse peut prendre en charge les objets, les poses, les matériaux ou les conditions d'éclairage.
  • assemblage sans soudureLes éléments peuvent être combinés librement pour créer des images uniques.

4.4 Approche créative et flexible

  • Extraire plusieurs éléments d'une même imageLes images peuvent être utilisées pour l'extraction de personnes, de vêtements et d'arrière-plans à partir d'une photographie.
  • Combiner des éléments de plusieurs imagesLes images peuvent être composées d'éléments provenant de différentes photographies, par exemple, pour créer une image entièrement nouvelle.

 

5. applications pratiques

5.1 La narration

Vous pouvez utiliser TokenVerse pour générer une série d'images pour votre histoire, chacune contenant les mêmes personnages et scènes, mais avec des intrigues et des détails différents.

TokenVerse:谷歌开源了多图风格混合创意工具 Whisk

Figure 19 : Résultats de la narration. La partie gauche montre tous les personnages, scènes et poses qui apparaissent dans l'histoire. À droite se trouve l'histoire générée par le modèle de langage (LLM). Le LLM a ensuite retraité l'histoire pour générer des invites qui ont été utilisées pour créer les images d'accompagnement.

 

5.2 Création de contenu personnalisé

Qu'il s'agisse de créer des cartes d'anniversaire personnalisées, des présentoirs de produits sur mesure ou des œuvres d'art numériques uniques, TokenVerse facilite les choses.

5.3 Applications commerciales

  • conception publicitaireLes images publicitaires : créer des images publicitaires plus attrayantes.
  • commercialisation des produitsLes services d'information et d'orientation : Générer des images de haute qualité des produits pour la promotion en ligne et hors ligne.
  • développement de jeuxLes jeux en ligne : générez rapidement des personnages, des scènes et des accessoires dans le jeu.

 

6) Précautions

6.1 Conflit de concepts

Dans certains cas, si deux images contiennent des éléments portant le même nom (par exemple deux "poupées" différentes), les modèles peuvent être confondus. Pour éviter cela, il est recommandé d'identifier chaque élément avec un nom différent.

TokenVerse:谷歌开源了多图风格混合创意工具 Whisk

(a) Titres conflictuels (b) Utilisation de titres appropriés

 

6.2 Compatibilité des éléments

Certaines combinaisons d'éléments peuvent être incompatibles, par exemple lorsqu'une poupée aux membres extrêmement courts prend une pose qui nécessite des bras et des jambes. Cela peut entraîner des résultats indésirables.

 

7. résumé

TokenVerse est un puissant outil de génération d'images basé sur le framework open source Whisk, héritant de sa puissance et de sa flexibilité. En comprenant vos indices textuels et vos images de référence, TokenVerse est capable d'extraire et de combiner différents éléments visuels pour créer une image unique qui répond à vos besoins.

7.1 Points forts

  • La puissance de l'Open Source WhiskLes caractéristiques de ce produit sont les suivantes : génération d'images de haute qualité, capacités de traitement de textes riches, évolutivité.
  • simple et facile à utiliserLes opérations sont simples et ne requièrent pas de compétences spécialisées ou d'opérations complexes.
  • De puissantes capacités de personnalisationSoutien à plusieurs éléments, combinés de manière transparente.
  • Une approche créative et flexibleLes images : extraire et combiner des éléments à partir d'une ou plusieurs images.

7.2 Perspectives d'avenir

Au fur et à mesure que le framework de TokenVerse évolue et que la communauté continue à contribuer, les fonctionnalités de TokenVerse vont s'améliorer et les scénarios d'application vont se multiplier. Nous nous réjouissons de voir de plus en plus d'utilisateurs créer des images étonnantes avec TokenVerse.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...