Découvrez les capacités natives de génération et d'édition d'images de Gemini 2.0 Flash.

Tutoriels pratiques sur l'IAMise à jour il y a 6 mois Cercle de partage de l'IA

15.9K 00

En décembre de l'année dernière, Gemini 2.0 Flash a présenté pour la première fois ses capacités de sortie d'images natives à un groupe restreint de bêta-testeurs. À l'heure actuelle, les développeurs peuvent ajouter une nouvelle version de Gemini 2.0 Flash à la base de données de l'entreprise. Google AI Studio Découvrez cette nouvelle fonctionnalité dans toutes les régions prises en charge. Les développeurs peuvent accéder à cette nouvelle fonctionnalité via Google AI Studio (version expérimentale de gemini-2.0-flash-exp) et Gémeaux pour tester cette nouvelle fonctionnalité.

Gemini 2.0 Flash utilise une entrée multimodale, des capacités de raisonnement améliorées et la compréhension du langage naturel pour générer des images. Cette technologie combine un certain nombre de capacités avancées qui font de Gemini 2.0 Flash un outil unique pour la génération d'images.

Expérience : https://aistudio.google.com/prompts/new_chat (Select : Gemini 2.0 Flash Experimental)

Voici quelques exemples des points forts de la production multimodale de Gemini 2.0 Flash :

1) Combinaison de textes et de graphiques : unité de la narration et de la présentation visuelle

Gemini 2.0 Flash génère des images basées sur l'histoire textuelle et maintient la cohérence des personnages et des scènes tout au long du processus de narration. En outre, l'utilisateur peut donner son avis et le modèle peut ajuster le contenu de l'histoire ou le style de l'image en fonction de cet avis, ce qui permet à l'histoire et aux illustrations d'évoluer en même temps.

Mot de repère : générez l'histoire des têtards à la recherche de leur mère, l'histoire est divisée en 3 images à raconter, générez d'abord les images des trois images individuellement, puis générez le texte de l'histoire correspondant à toutes les images.

Même si vous ne spécifiez pas le style d'écran, celui-ci restera uniforme.

2. l'édition conversationnelle d'images : l'optimisation itérative pilotée par le langage naturel

Gemini 2.0 Flash prend en charge l'édition d'images par le biais de plusieurs cycles de dialogue en langage naturel. Cela permet aux utilisateurs d'optimiser une image de manière itérative ou d'explorer ensemble différentes directions créatives. Le modèle maintient la compréhension du contexte pendant le dialogue, ajustant progressivement l'image selon les instructions de l'utilisateur jusqu'à ce que le résultat souhaité soit atteint.

Les invites textuelles pour modifier l'image, sans changement de détail autre que la couleur, ont vraiment fait ce qu'elles disaient sur la boîte cette fois-ci !

3. intégration de la connaissance du monde : création d'une image plus précise

Contrairement à d'autres modèles de génération d'images, Gemini 2.0 Flash utilise sa puissante connaissance du monde et ses capacités de raisonnement pour générer des images plus précises. Cela en fait un excellent outil pour la création d'images nécessitant un haut degré de réalisme, par exemple des images utilisées pour illustrer une recette. Bien que Gemini 2.0 Flash s'efforce d'être précis, comme tous les modèles de langage, sa connaissance est large et générique, et non absolument complète. Cela signifie que le modèle peut être limité en termes d'expertise spécifique à un domaine.

Mot clé : Aidez-moi à générer une recette de restaurant mexicain en format texte + image

4. capacité de rendu de texte : rendu précis de textes longs

La plupart des modèles de génération d'images peinent à restituer avec précision de longues séquences de texte, souvent avec des problèmes tels que des erreurs de formatage, des caractères illisibles ou des fautes d'orthographe. Des études internes montrent que Gemini 2.0 Flash surpasse les autres modèles de premier plan en matière de rendu de texte. Il est donc idéal pour créer du contenu image tel que des publicités, des messages sur les réseaux sociaux et même des invitations qui doivent contenir beaucoup de texte.

Indice : Un vieux journal avec le titre "Today's Hot News" en haut et les détails de la nouvelle en bas.

Le chinois est légèrement moins bon, mais le texte long en anglais est meilleur.

Effet Full English ?

Des exemples plus surprenants d'édition d'images

Portrait Photo Face Swap

Je plaisante...

Mise au point de la présentation des expressions faciales

Composite de plusieurs éléments photographiques

Téléchargez deux photos des personnages, la première a été choisie pour être un buste de Musk et le second chapitre a été choisi pour être un portrait du corps entier d'une belle femme à composer. Cette pièce laisse une grande place à l'imagination.

Restauration de photographies anciennes

Si vous ne parvenez pas à résoudre le problème en une seule fois, vous pouvez essayer plusieurs fois lorsque les détails de la photo sont agrandis.

Coloriage d'images

Et bien sûr, soutenir la mise en couleur de vieilles photographies.

De la conversion du style du logo à la présentation finale de l'imprimé

Découvrez Gemini Image Generation dès maintenant

Les développeurs peuvent utiliser l'outil API Gemini Premiers pas avec Gemini 2.0 Flash Pour plus d'informations sur la génération d'images, veuillez vous référer à la page d'accueil de Gemini 2.0 Flash.fichier (informatique).

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

Qu'il s'agisse de créer des agents d'intelligence artificielle, de développer des applications avec de superbes visuels, comme des histoires interactives, ou d'imaginer des idées visuelles dans un dialogue, Gemini 2.0 Flash permet aux développeurs de générer à la fois du texte et des images à partir d'un modèle unique. Google se réjouit de voir les développeurs créer davantage d'applications avec une sortie d'image native et souhaite recevoir les commentaires des développeurs afin d'aider l'équipe Gemini à mettre au point une version prête pour la production dès que possible.