Im Dezember letzten Jahres stellte Gemini 2.0 Flash seine nativen Bildausgabefunktionen zum ersten Mal einer ausgewählten Gruppe von Betatestern vor. Derzeit können Entwickler eine neue Version von Gemini 2.0 Flash in die Google AI Studio Erleben Sie diese neue Funktion in allen unterstützten Regionen. Entwickler können auf diese neue Funktion über Google zugreifen AI-Studio (experimentelle Version von gemini-2.0-flash-exp) und Zwillinge API, um diese neue Funktion zu testen.
Gemini 2.0 Flash nutzt multimodale Eingaben, erweiterte Argumentationsfähigkeiten und natürliches Sprachverständnis zur Bilderzeugung. Diese Technologie kombiniert eine Reihe von fortschrittlichen Funktionen, die Gemini 2.0 Flash einzigartig für die Bilderzeugung machen.
Erfahrung: https://aistudio.google.com/prompts/new_chat (Auswahl: Gemini 2.0 Flash Experimental)
Im Folgenden finden Sie einige Beispiele für die Highlights der multimodalen Ausgabe von Gemini 2.0 Flash:
1. die Kombination von Text und Grafik: Einheit von Erzählung und visueller Darstellung
Gemini 2.0 Flash generiert Bilder auf der Grundlage der Textgeschichte und sorgt dafür, dass die Figuren und Szenen während des gesamten Erzählprozesses konsistent bleiben. Darüber hinaus kann der Benutzer Feedback geben, und das Modell kann den Inhalt der Geschichte oder den Bildstil auf der Grundlage des Feedbacks anpassen, so dass sich die Geschichte und die Illustrationen gemeinsam weiterentwickeln können.
Stichwort: Generieren Sie die Geschichte von Kaulquappen, die ihre Mutter suchen. Die Geschichte ist in drei Bilder unterteilt, die zu erzählen sind, und generieren Sie zuerst die Bilder der drei Bilder einzeln und dann den Text der Geschichte, der zu allen Bildern passt.
Auch wenn Sie den Bildschirmstil nicht angeben, bleibt er einheitlich.
2. konversationelle Bildbearbeitung: natürlichsprachliche, iterative Optimierung
Gemini 2.0 Flash unterstützt die Bildbearbeitung durch mehrere Runden eines natürlichsprachlichen Dialogs. Dies erleichtert es den Benutzern, ein Bild iterativ zu optimieren oder gemeinsam verschiedene kreative Richtungen zu erkunden. Das Modell behält während des Dialogs ein kontextbezogenes Verständnis bei und passt das Bild schrittweise entsprechend den Anweisungen des Nutzers an, bis das gewünschte Ergebnis erreicht ist.
Die reinen Textaufforderungen zum Bearbeiten des Bildes, bei denen sich außer der Farbe keine Details ändern, haben diesmal wirklich das gebracht, was auf der Verpackung stand!
3. die Integration des Weltwissens: die Schaffung eines genaueren Bildes
Im Gegensatz zu anderen Modellen zur Bilderzeugung nutzt Gemini 2.0 Flash sein leistungsfähiges Weltwissen und seine Schlussfolgerungsfähigkeiten, um genauere Bilder zu erzeugen. Dadurch eignet es sich hervorragend für die Erstellung von Bildern, die einen hohen Grad an Realismus erfordern, z. B. Bilder zur Illustration eines Rezepts. Obwohl Gemini 2.0 Flash nach Genauigkeit strebt, ist sein Wissen, wie bei allen Sprachmodellen, breit gefächert und generisch, nicht absolut vollständig. Das bedeutet, dass das Modell in Bezug auf das domänenspezifische Fachwissen an seine Grenzen stoßen kann.
Aufforderungswort: Helfen Sie mir, ein Rezept für ein mexikanisches Restaurant im Text- und Bildformat zu erstellen
4. die Fähigkeit zur Wiedergabe von Text: genaue Wiedergabe langer Texte
Die meisten Modelle zur Bilderzeugung haben Schwierigkeiten, lange Textsequenzen korrekt wiederzugeben, wobei häufig Probleme wie Formatierungsfehler, unleserliche Zeichen oder Rechtschreibfehler auftreten. Interne Tests zeigen, dass Gemini 2.0 Flash andere führende Modelle bei der Textwiedergabe übertrifft. Dies macht es ideal für die Erstellung von Bildinhalten wie Anzeigen, Posts für soziale Medien und sogar Einladungen, die viel Text enthalten müssen.
Hinweis: Eine alte Zeitung mit der Schlagzeile "Today's Hot News" oben und den Einzelheiten der Nachricht darunter.
Chinesisch ist etwas schlechter, die Ausgabe langer englischer Texte ist besser.
Full English Effekt?
Weitere überraschende Beispiele für Bildbearbeitung
Porträtbild Gesichtstausch
Nur ein Scherz...
Feinabstimmung der Mimik
Komposit aus mehreren Fotoelementen
Laden Sie zwei Fotos der Figuren hoch, wobei das erste als Büste von Moschus und das zweite als Ganzkörperporträt einer schönen Frau ausgewählt wurde, die zusammengesetzt werden soll. Bei diesem Stück gibt es viel Raum für Fantasie.
Restaurierung von alten Fotografien
Wenn Sie es einmal nicht gut hinbekommen, können Sie es mehrmals versuchen, während die Fotodetails vergrößert werden.
Ausmalen von Bildern
Und natürlich die Kolorierung alter Fotos unterstützen
Erleben Sie Gemini Image Generation jetzt
Entwickler können die Zwillings-API Erste Schritte mit Gemini 2.0 Flash Weitere Informationen zur Bilderzeugung finden Sie in der(Computer-)Datei.
from google import genai
from google.genai importiert Typen
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
content=(
"Erzeuge einen Geschichte über eine niedliche Baby-Schildkröte in digitaler 3D-Kunst".
"Erstelle für jede Szene ein Bild."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Bild"]
),
)
Ob es um die Erstellung von KI-Agenten, die Entwicklung von Anwendungen mit schönen Bildern wie interaktives Storytelling oder die Entwicklung visueller Ideen im Dialog geht, mit Gemini 2.0 Flash können Entwickler sowohl Text als auch Bilder aus einem einzigen Modell generieren. Google freut sich darauf, dass Entwickler mehr Apps mit nativer Bildausgabe erstellen und bittet um Feedback von Entwicklern, damit das Gemini-Team so bald wie möglich eine produktionsreife Version fertigstellen kann.