在 去年 12 月,Gemini 2.0 Flash 首次向部分测试人员展示了其原生图像输出功能。目前,开发者可以在 Google AI Studio 支持的所有区域 体验这项新功能。开发者可以通过 Google AI Studio (gemini-2.0-flash-exp 的实验版本) 和 Gemini API 来测试这项新功能。
Gemini 2.0 Flash 利用多模态输入、增强的推理能力和自然语言理解能力来生成图像。这项技术融合了多种先进能力,使得 Gemini 2.0 Flash 在图像生成领域表现出独特的优势。
体验地址:https://aistudio.google.com/prompts/new_chat(选择:Gemini 2.0 Flash Experimental)
以下是 Gemini 2.0 Flash 多模态输出的一些亮点示例:
1. 文图结合:故事叙述与视觉呈现的统一
Gemini 2.0 Flash 能够根据文本故事生成相应的图像,并在整个故事叙述过程中保持角色和场景的一致性。更进一步,用户可以提供反馈,模型能够根据反馈调整故事内容或图像风格,实现故事和插图的同步演进。
提示词:生成小蝌蚪找妈妈的故事,故事分为3个画面进行讲述,先单独生成三个画面的图片,然后生成所有图片对应的故事文本。
就算不指定画面风格,也会保持统一。
2. 对话式图像编辑:自然语言驱动的迭代优化
Gemini 2.0 Flash 支持通过多轮自然语言对话进行图像编辑。这为用户迭代优化图像,或共同探索不同创意方向提供了便利。模型能够在对话过程中保持上下文理解,根据用户的指令逐步调整图像,直至达到理想效果。
纯文字提示编辑图像,除了颜色其他细节没有改变,这次真的做到了言出法随!
3. 世界知识融入:创造更精准的图像
与其他图像生成模型不同,Gemini 2.0 Flash 利用其强大的世界知识和推理能力来生成更准确的图像。这使得它在创建需要高度写实性的图像时表现出色,例如,用于说明菜谱的图像。尽管 Gemini 2.0 Flash 力求准确,但与所有语言模型一样,它的知识是广泛而通用的,并非绝对完整。这意味着,在特定领域的专业知识方面,模型可能存在局限性。
提示词:帮我生成一份墨西哥餐厅菜谱,文字+配图形式
4. 文本渲染能力:长文本准确呈现
大多数图像生成模型在准确渲染长文本序列时会遇到困难,经常出现格式错乱、字符难以辨认或拼写错误等问题。内部评测显示,Gemini 2.0 Flash 在文本渲染方面优于其他领先模型。这使得它非常适合创建广告、社交媒体帖子,甚至是邀请函等需要包含大量文字的图像内容。
提示词:一张旧报纸,上面书写大标题“今日热点新闻”,下面是新闻的具体内容。
中文略差,输出长英文文本效果较好。
英文效果满分?
更多让人惊喜的图像编辑示例
人像图片换脸
开个玩笑...
面部表情布局微调
多张照片元素合成
上传两张人物照片,第一张选用的是马斯克半身像,第二章选择的是美女全身像,进行合成。这个玩法想象空间很大。
修复老照片
一次修复不好,可以多试几次,同时照片细节也放大。
图片上色
当然也支持老照片上色
从LOGO风格转换到印刷物成品展示
立即体验 Gemini 图像生成
开发者可以通过 Gemini API 开始使用 Gemini 2.0 Flash。更多关于图像生成的信息,请参考文档。
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)
无论是构建 AI 代理,开发具有精美视觉效果的应用(如互动故事),还是在对话中进行视觉创意构思,Gemini 2.0 Flash 都能够帮助开发者通过单一模型同时实现文本和图像的生成。 Google 期待看到开发者利用原生图像输出功能创造出更多应用,并希望开发者提供反馈,以帮助 Gemini 团队尽快完成生产就绪版本的开发。