Erleben Sie die nativen Bilderzeugungs- und -bearbeitungsfunktionen von Gemini 2.0 Flash.

Praktische AI-TutorialsAktualisiert vor 6 Monaten AI-Austauschkreis

15.7K 00

Im Dezember letzten Jahres stellte Gemini 2.0 Flash seine nativen Bildausgabefunktionen zum ersten Mal einer ausgewählten Gruppe von Betatestern vor. Derzeit können Entwickler eine neue Version von Gemini 2.0 Flash in die Google AI Studio Erleben Sie diese neue Funktion in allen unterstützten Regionen. Entwickler können auf diese neue Funktion über Google zugreifen AI-Studio (experimentelle Version von gemini-2.0-flash-exp) und Zwillinge API, um diese neue Funktion zu testen.

Gemini 2.0 Flash nutzt multimodale Eingaben, erweiterte Argumentationsfähigkeiten und natürliches Sprachverständnis zur Bilderzeugung. Diese Technologie kombiniert eine Reihe von fortschrittlichen Funktionen, die Gemini 2.0 Flash einzigartig für die Bilderzeugung machen.

Erfahrung: https://aistudio.google.com/prompts/new_chat (Auswahl: Gemini 2.0 Flash Experimental)

Im Folgenden finden Sie einige Beispiele für die Highlights der multimodalen Ausgabe von Gemini 2.0 Flash:

1. die Kombination von Text und Grafik: Einheit von Erzählung und visueller Darstellung

Gemini 2.0 Flash generiert Bilder auf der Grundlage der Textgeschichte und sorgt dafür, dass die Figuren und Szenen während des gesamten Erzählprozesses konsistent bleiben. Darüber hinaus kann der Benutzer Feedback geben, und das Modell kann den Inhalt der Geschichte oder den Bildstil auf der Grundlage des Feedbacks anpassen, so dass sich die Geschichte und die Illustrationen gemeinsam weiterentwickeln können.

Stichwort: Generieren Sie die Geschichte von Kaulquappen, die ihre Mutter suchen. Die Geschichte ist in drei Bilder unterteilt, die zu erzählen sind, und generieren Sie zuerst die Bilder der drei Bilder einzeln und dann den Text der Geschichte, der zu allen Bildern passt.

Auch wenn Sie den Bildschirmstil nicht angeben, bleibt er einheitlich.

2. konversationelle Bildbearbeitung: natürlichsprachliche, iterative Optimierung

Gemini 2.0 Flash unterstützt die Bildbearbeitung durch mehrere Runden eines natürlichsprachlichen Dialogs. Dies erleichtert es den Nutzern, ein Bild iterativ zu optimieren oder gemeinsam verschiedene kreative Richtungen zu erkunden. Das Modell behält während des Dialogs ein kontextbezogenes Verständnis bei und passt das Bild schrittweise entsprechend den Anweisungen des Nutzers an, bis das gewünschte Ergebnis erreicht ist.

Die reinen Textaufforderungen zum Bearbeiten des Bildes, bei denen sich außer der Farbe keine Details ändern, haben diesmal wirklich das gebracht, was auf der Verpackung stand!

3. die Integration des Weltwissens: die Schaffung eines genaueren Bildes

Im Gegensatz zu anderen Modellen zur Bilderzeugung nutzt Gemini 2.0 Flash sein leistungsfähiges Weltwissen und seine Schlussfolgerungsfähigkeiten, um genauere Bilder zu erzeugen. Dadurch eignet es sich hervorragend für die Erstellung von Bildern, die einen hohen Grad an Realismus erfordern, z. B. Bilder zur Illustration eines Rezepts. Obwohl Gemini 2.0 Flash nach Genauigkeit strebt, ist sein Wissen, wie bei allen Sprachmodellen, breit gefächert und generisch, nicht absolut vollständig. Das bedeutet, dass das Modell in Bezug auf das domänenspezifische Fachwissen Einschränkungen aufweisen kann.

Aufforderungswort: Helfen Sie mir, ein Rezept für ein mexikanisches Restaurant im Text- und Bildformat zu erstellen

4. die Fähigkeit zur Wiedergabe von Text: genaue Wiedergabe langer Texte

Die meisten Modelle zur Bilderzeugung haben Schwierigkeiten, lange Textsequenzen korrekt wiederzugeben, wobei häufig Probleme wie Formatierungsfehler, unleserliche Zeichen oder Rechtschreibfehler auftreten. Interne Tests zeigen, dass Gemini 2.0 Flash andere führende Modelle bei der Textwiedergabe übertrifft. Dies macht es ideal für die Erstellung von Bildinhalten wie Anzeigen, Posts für soziale Medien und sogar Einladungen, die viel Text enthalten müssen.

Hinweis: Eine alte Zeitung mit der Schlagzeile "Today's Hot News" oben und den Einzelheiten der Nachricht darunter.

Chinesisch ist etwas schlechter, die Ausgabe langer englischer Texte ist besser.

Full English Effekt?

Weitere überraschende Beispiele für Bildbearbeitung

Porträtbild Gesichtstausch

Nur ein Scherz...

Feinabstimmung des Mimik-Layouts

Komposit aus mehreren Fotoelementen

Laden Sie zwei Fotos der Figuren hoch, wobei das erste als Büste von Moschus und das zweite als Ganzkörperporträt einer schönen Frau ausgewählt wurde, die zusammengesetzt werden soll. Bei diesem Stück gibt es viel Raum für Fantasie.

Restaurierung von alten Fotografien

Wenn Sie es einmal nicht gut hinbekommen, können Sie es mehrmals versuchen, während die Fotodetails vergrößert werden.

Ausmalen von Bildern

Und natürlich die Kolorierung alter Fotos unterstützen

Von der Logoumsetzung bis zur fertigen Drucksachenpräsentation

Erleben Sie Gemini Image Generation jetzt

Entwickler können die Zwillings-API Erste Schritte mit Gemini 2.0 Flash Weitere Informationen zur Bilderzeugung finden Sie in der(Computer-)Datei.

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

Ob es um die Erstellung von KI-Agenten, die Entwicklung von Anwendungen mit schönen Bildern wie interaktives Storytelling oder die Entwicklung visueller Ideen im Dialog geht, mit Gemini 2.0 Flash können Entwickler sowohl Text als auch Bilder aus einem einzigen Modell generieren. Google freut sich darauf, dass Entwickler mehr Apps mit nativer Bildausgabe erstellen und bittet um Feedback von Entwicklern, damit das Gemini-Team so bald wie möglich eine produktionsreife Version fertigstellen kann.