Découvrez les capacités natives de génération et d'édition d'images de Gemini 2.0 Flash.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

En décembre de l'année dernière, Gemini 2.0 Flash a présenté pour la première fois ses capacités de sortie d'images natives à un groupe restreint de bêta-testeurs. À l'heure actuelle, les développeurs peuvent ajouter une nouvelle version de Gemini 2.0 Flash à la base de données de l'entreprise. Google AI Studio Découvrez cette nouvelle fonctionnalité dans toutes les régions prises en charge. Les développeurs peuvent accéder à cette nouvelle fonctionnalité via Google AI Studio (version expérimentale de gemini-2.0-flash-exp) et Gémeaux pour tester cette nouvelle fonctionnalité.

Gemini 2.0 Flash utilise une entrée multimodale, des capacités de raisonnement améliorées et la compréhension du langage naturel pour générer des images. Cette technologie combine un certain nombre de capacités avancées qui font de Gemini 2.0 Flash un outil unique pour la génération d'images.

Expérience : https://aistudio.google.com/prompts/new_chat (Select : Gemini 2.0 Flash Experimental)

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Voici quelques exemples des points forts de la production multimodale de Gemini 2.0 Flash :

 

1) Combinaison de textes et de graphiques : unité de la narration et de la présentation visuelle

Gemini 2.0 Flash génère des images basées sur l'histoire textuelle et maintient la cohérence des personnages et des scènes tout au long du processus de narration. En outre, l'utilisateur peut donner son avis et le modèle peut ajuster le contenu de l'histoire ou le style de l'image en fonction de cet avis, ce qui permet à l'histoire et aux illustrations d'évoluer en même temps.

Mot de repère : générez l'histoire des têtards à la recherche de leur mère, l'histoire est divisée en 3 images à raconter, générez d'abord les images des trois images individuellement, puis générez le texte de l'histoire correspondant à toutes les images.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Même si vous ne spécifiez pas le style d'écran, celui-ci restera uniforme.

 

2. l'édition conversationnelle d'images : l'optimisation itérative pilotée par le langage naturel

Gemini 2.0 Flash prend en charge l'édition d'images par le biais de plusieurs cycles de dialogue en langage naturel. Cela permet aux utilisateurs d'optimiser une image de manière itérative ou d'explorer ensemble différentes directions créatives. Le modèle maintient la compréhension du contexte pendant le dialogue, ajustant progressivement l'image selon les instructions de l'utilisateur jusqu'à ce que le résultat souhaité soit atteint.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Les invites textuelles pour modifier l'image, sans changement de détail autre que la couleur, ont vraiment fait ce qu'elles disaient sur la boîte cette fois-ci !

 

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

3. intégration de la connaissance du monde : création d'une image plus précise

Contrairement à d'autres modèles de génération d'images, Gemini 2.0 Flash utilise sa puissante connaissance du monde et ses capacités de raisonnement pour générer des images plus précises. Cela en fait un excellent outil pour la création d'images nécessitant un haut degré de réalisme, par exemple des images utilisées pour illustrer une recette. Bien que Gemini 2.0 Flash s'efforce d'être précis, comme tous les modèles de langage, sa connaissance est large et générique, et non absolument complète. Cela signifie que le modèle peut être limité en termes d'expertise spécifique à un domaine.

Mot clé : Aidez-moi à générer une recette de restaurant mexicain en format texte + image

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

4. capacité de rendu de texte : rendu précis de textes longs

La plupart des modèles de génération d'images peinent à restituer avec précision de longues séquences de texte, souvent avec des problèmes tels que des erreurs de formatage, des caractères illisibles ou des fautes d'orthographe. Des études internes montrent que Gemini 2.0 Flash surpasse les autres modèles de premier plan en matière de rendu de texte. Il est donc idéal pour créer du contenu image tel que des publicités, des messages sur les réseaux sociaux et même des invitations qui doivent contenir beaucoup de texte.

Indice : Un vieux journal avec le titre "Today's Hot News" en haut et les détails de la nouvelle en bas.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Le chinois est légèrement moins bon, mais le texte long en anglais est meilleur.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Effet Full English ?

 

Des exemples plus surprenants d'édition d'images

Portrait Photo Face Swap

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Je plaisante...

 

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Mise au point de la présentation des expressions faciales

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Composite de plusieurs éléments photographiques

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Téléchargez deux photos des personnages, la première a été choisie pour être un buste de Musk et le second chapitre a été choisi pour être un portrait du corps entier d'une belle femme à composer. Cette pièce laisse une grande place à l'imagination.

 

Restauration de photographies anciennes

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Si vous ne parvenez pas à résoudre le problème en une seule fois, vous pouvez essayer plusieurs fois lorsque les détails de la photo sont agrandis.

 

Coloriage d'images

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Et bien sûr, soutenir la mise en couleur de vieilles photographies.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

De la conversion du style du logo à la présentation finale de l'imprimé

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Découvrez Gemini Image Generation dès maintenant

Les développeurs peuvent utiliser l'outil API Gemini Premiers pas avec Gemini 2.0 Flash Pour plus d'informations sur la génération d'images, veuillez vous référer à la page d'accueil de Gemini 2.0 Flash.fichier (informatique).

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

Qu'il s'agisse de créer des agents d'intelligence artificielle, de développer des applications avec de superbes visuels, comme des histoires interactives, ou d'imaginer des idées visuelles dans un dialogue, Gemini 2.0 Flash permet aux développeurs de générer à la fois du texte et des images à partir d'un modèle unique. Google se réjouit de voir les développeurs créer davantage d'applications avec une sortie d'image native et souhaite recevoir les commentaires des développeurs afin d'aider l'équipe Gemini à mettre au point une version prête pour la production dès que possible.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...