AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

Erleben Sie die nativen Bilderzeugungs- und -bearbeitungsfunktionen von Gemini 2.0 Flash.

Gemini 2.0 Flash Native Image Generation

Im Dezember letzten Jahres stellte Gemini 2.0 Flash seine nativen Bildausgabefunktionen zum ersten Mal einer ausgewählten Gruppe von Betatestern vor. Derzeit können Entwickler eine neue Version von Gemini 2.0 Flash in die Google AI Studio Erleben Sie diese neue Funktion in allen unterstützten Regionen. Entwickler können auf diese neue Funktion über Google zugreifen AI-Studio (experimentelle Version von gemini-2.0-flash-exp) und Zwillinge API, um diese neue Funktion zu testen.


Gemini 2.0 Flash nutzt multimodale Eingaben, erweiterte Argumentationsfähigkeiten und natürliches Sprachverständnis zur Bilderzeugung. Diese Technologie kombiniert eine Reihe von fortschrittlichen Funktionen, die Gemini 2.0 Flash einzigartig für die Bilderzeugung machen.

Erfahrung: https://aistudio.google.com/prompts/new_chat (Auswahl: Gemini 2.0 Flash Experimental)

Erleben Sie Gemini 2.0 Flash Native Bilderzeugungs- und -bearbeitungsfunktionen-1

Im Folgenden finden Sie einige Beispiele für die Highlights der multimodalen Ausgabe von Gemini 2.0 Flash:

 

1. die Kombination von Text und Grafik: Einheit von Erzählung und visueller Darstellung

Gemini 2.0 Flash generiert Bilder auf der Grundlage der Textgeschichte und sorgt dafür, dass die Figuren und Szenen während des gesamten Erzählprozesses konsistent bleiben. Darüber hinaus kann der Benutzer Feedback geben, und das Modell kann den Inhalt der Geschichte oder den Bildstil auf der Grundlage des Feedbacks anpassen, so dass sich die Geschichte und die Illustrationen gemeinsam weiterentwickeln können.

Stichwort: Generieren Sie die Geschichte von Kaulquappen, die ihre Mutter suchen. Die Geschichte ist in drei Bilder unterteilt, die zu erzählen sind, und generieren Sie zuerst die Bilder der drei Bilder einzeln und dann den Text der Geschichte, der zu allen Bildern passt.

Erleben Sie Gemini 2.0 Flash Native Bilderzeugungs- und -bearbeitungsfunktionen-1

 

Auch wenn Sie den Bildschirmstil nicht angeben, bleibt er einheitlich.

 

2. konversationelle Bildbearbeitung: natürlichsprachliche, iterative Optimierung

Gemini 2.0 Flash unterstützt die Bildbearbeitung durch mehrere Runden eines natürlichsprachlichen Dialogs. Dies erleichtert es den Benutzern, ein Bild iterativ zu optimieren oder gemeinsam verschiedene kreative Richtungen zu erkunden. Das Modell behält während des Dialogs ein kontextbezogenes Verständnis bei und passt das Bild schrittweise entsprechend den Anweisungen des Nutzers an, bis das gewünschte Ergebnis erreicht ist.

Erleben Sie Gemini 2.0 Flash Native Bilderzeugungs- und -bearbeitungsfunktionen-1

Die reinen Textaufforderungen zum Bearbeiten des Bildes, bei denen sich außer der Farbe keine Details ändern, haben diesmal wirklich das gebracht, was auf der Verpackung stand!

 

3. die Integration des Weltwissens: die Schaffung eines genaueren Bildes

Im Gegensatz zu anderen Modellen zur Bilderzeugung nutzt Gemini 2.0 Flash sein leistungsfähiges Weltwissen und seine Schlussfolgerungsfähigkeiten, um genauere Bilder zu erzeugen. Dadurch eignet es sich hervorragend für die Erstellung von Bildern, die einen hohen Grad an Realismus erfordern, z. B. Bilder zur Illustration eines Rezepts. Obwohl Gemini 2.0 Flash nach Genauigkeit strebt, ist sein Wissen, wie bei allen Sprachmodellen, breit gefächert und generisch, nicht absolut vollständig. Das bedeutet, dass das Modell in Bezug auf das domänenspezifische Fachwissen an seine Grenzen stoßen kann.

Aufforderungswort: Helfen Sie mir, ein Rezept für ein mexikanisches Restaurant im Text- und Bildformat zu erstellen

Erleben Sie Gemini 2.0 Flash Native Bilderzeugungs- und -bearbeitungsfunktionen-1

 

4. die Fähigkeit zur Wiedergabe von Text: genaue Wiedergabe langer Texte

Die meisten Modelle zur Bilderzeugung haben Schwierigkeiten, lange Textsequenzen korrekt wiederzugeben, wobei häufig Probleme wie Formatierungsfehler, unleserliche Zeichen oder Rechtschreibfehler auftreten. Interne Tests zeigen, dass Gemini 2.0 Flash andere führende Modelle bei der Textwiedergabe übertrifft. Dies macht es ideal für die Erstellung von Bildinhalten wie Anzeigen, Posts für soziale Medien und sogar Einladungen, die viel Text enthalten müssen.

Hinweis: Eine alte Zeitung mit der Schlagzeile "Today's Hot News" oben und den Einzelheiten der Nachricht darunter.

Erleben Sie Gemini 2.0 Flash Native Bilderzeugungs- und -bearbeitungsfunktionen-1

Chinesisch ist etwas schlechter, die Ausgabe langer englischer Texte ist besser.

Erleben Sie Gemini 2.0 Flash Native Bilderzeugungs- und -bearbeitungsfunktionen-1

Full English Effekt?

 

Weitere überraschende Beispiele für Bildbearbeitung

Porträtbild Gesichtstausch

Erleben Sie Gemini 2.0 Flash Native Bilderzeugungs- und -bearbeitungsfunktionen-1

Nur ein Scherz...

 

Erleben Sie Gemini 2.0 Flash Native Bilderzeugungs- und -bearbeitungsfunktionen-1

 

Feinabstimmung der Mimik

Erleben Sie Gemini 2.0 Flash Native Bilderzeugungs- und -bearbeitungsfunktionen-1

 

Komposit aus mehreren Fotoelementen

Erleben Sie Gemini 2.0 Flash Native Bilderzeugungs- und -bearbeitungsfunktionen-1

Laden Sie zwei Fotos der Figuren hoch, wobei das erste als Büste von Moschus und das zweite als Ganzkörperporträt einer schönen Frau ausgewählt wurde, die zusammengesetzt werden soll. Bei diesem Stück gibt es viel Raum für Fantasie.

 

Restaurierung von alten Fotografien

Erleben Sie Gemini 2.0 Flash Native Bilderzeugungs- und -bearbeitungsfunktionen-1

Wenn Sie es einmal nicht gut hinbekommen, können Sie es mehrmals versuchen, während die Fotodetails vergrößert werden.

 

Ausmalen von Bildern

Erleben Sie Gemini 2.0 Flash Native Bilderzeugungs- und -bearbeitungsfunktionen-1

 

Und natürlich die Kolorierung alter Fotos unterstützen

Erleben Sie Gemini 2.0 Flash Native Bilderzeugungs- und -bearbeitungsfunktionen-1

 

Erleben Sie Gemini Image Generation jetzt

Entwickler können die Zwillings-API Erste Schritte mit Gemini 2.0 Flash Weitere Informationen zur Bilderzeugung finden Sie in der(Computer-)Datei.

from google import genai
from google.genai importiert Typen
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
content=(
"Erzeuge einen Geschichte über eine niedliche Baby-Schildkröte in digitaler 3D-Kunst".
"Erstelle für jede Szene ein Bild."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Bild"]
),
)

Ob es um die Erstellung von KI-Agenten, die Entwicklung von Anwendungen mit schönen Bildern wie interaktives Storytelling oder die Entwicklung visueller Ideen im Dialog geht, mit Gemini 2.0 Flash können Entwickler sowohl Text als auch Bilder aus einem einzigen Modell generieren. Google freut sich darauf, dass Entwickler mehr Apps mit nativer Bildausgabe erstellen und bittet um Feedback von Entwicklern, damit das Gemini-Team so bald wie möglich eine produktionsreife Version fertigstellen kann.

CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Erleben Sie die nativen Bilderzeugungs- und -bearbeitungsfunktionen von Gemini 2.0 Flash.

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)