带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

56.6K 00

在去年 12 月，Gemini 2.0 Flash 首次向部分测试人员展示了其原生图像输出功能。目前，开发者可以在 Google AI Studio 支持的所有区域体验这项新功能。开发者可以通过 Google AI Studio (gemini-2.0-flash-exp 的实验版本) 和 Gemini API 来测试这项新功能。

Gemini 2.0 Flash 利用多模态输入、增强的推理能力和自然语言理解能力来生成图像。这项技术融合了多种先进能力，使得 Gemini 2.0 Flash 在图像生成领域表现出独特的优势。

体验地址：https://aistudio.google.com/prompts/new_chat（选择：Gemini 2.0 Flash Experimental）

以下是 Gemini 2.0 Flash 多模态输出的一些亮点示例：

1. 文图结合：故事叙述与视觉呈现的统一

Gemini 2.0 Flash 能够根据文本故事生成相应的图像，并在整个故事叙述过程中保持角色和场景的一致性。更进一步，用户可以提供反馈，模型能够根据反馈调整故事内容或图像风格，实现故事和插图的同步演进。

提示词：生成小蝌蚪找妈妈的故事，故事分为3个画面进行讲述，先单独生成三个画面的图片，然后生成所有图片对应的故事文本。

就算不指定画面风格，也会保持统一。

2. 对话式图像编辑：自然语言驱动的迭代优化

Gemini 2.0 Flash 支持通过多轮自然语言对话进行图像编辑。这为用户迭代优化图像，或共同探索不同创意方向提供了便利。模型能够在对话过程中保持上下文理解，根据用户的指令逐步调整图像，直至达到理想效果。

纯文字提示编辑图像，除了颜色其他细节没有改变，这次真的做到了言出法随！

3. 世界知识融入：创造更精准的图像

与其他图像生成模型不同，Gemini 2.0 Flash 利用其强大的世界知识和推理能力来生成更准确的图像。这使得它在创建需要高度写实性的图像时表现出色，例如，用于说明菜谱的图像。尽管 Gemini 2.0 Flash 力求准确，但与所有语言模型一样，它的知识是广泛而通用的，并非绝对完整。这意味着，在特定领域的专业知识方面，模型可能存在局限性。

提示词：帮我生成一份墨西哥餐厅菜谱，文字+配图形式

4. 文本渲染能力：长文本准确呈现

大多数图像生成模型在准确渲染长文本序列时会遇到困难，经常出现格式错乱、字符难以辨认或拼写错误等问题。内部评测显示，Gemini 2.0 Flash 在文本渲染方面优于其他领先模型。这使得它非常适合创建广告、社交媒体帖子，甚至是邀请函等需要包含大量文字的图像内容。

提示词：一张旧报纸，上面书写大标题“今日热点新闻”，下面是新闻的具体内容。

中文略差，输出长英文文本效果较好。

英文效果满分？

立即体验 Gemini 图像生成

开发者可以通过 Gemini API 开始使用 Gemini 2.0 Flash。更多关于图像生成的信息，请参考文档。

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

无论是构建 AI 代理，开发具有精美视觉效果的应用（如互动故事），还是在对话中进行视觉创意构思，Gemini 2.0 Flash 都能够帮助开发者通过单一模型同时实现文本和图像的生成。 Google 期待看到开发者利用原生图像输出功能创造出更多应用，并希望开发者提供反馈，以帮助 Gemini 团队尽快完成生产就绪版本的开发。