AI个人学习
和实操指南
豆包Marscode1

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

本文于 2025-03-13 16:16 更新,部分内容具有时效性,如有失效,请留言

blank

在 去年 12 月,Gemini 2.0 Flash 首次向部分测试人员展示了其原生图像输出功能。目前,开发者可以在 Google AI Studio 支持的所有区域 体验这项新功能。开发者可以通过 Google AI Studio (gemini-2.0-flash-exp 的实验版本) 和 Gemini API 来测试这项新功能。


Gemini 2.0 Flash 利用多模态输入、增强的推理能力和自然语言理解能力来生成图像。这项技术融合了多种先进能力,使得 Gemini 2.0 Flash 在图像生成领域表现出独特的优势。

体验地址:https://aistudio.google.com/prompts/new_chat(选择:Gemini 2.0 Flash Experimental)

体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

以下是 Gemini 2.0 Flash 多模态输出的一些亮点示例:

 

1. 文图结合:故事叙述与视觉呈现的统一

Gemini 2.0 Flash 能够根据文本故事生成相应的图像,并在整个故事叙述过程中保持角色和场景的一致性。更进一步,用户可以提供反馈,模型能够根据反馈调整故事内容或图像风格,实现故事和插图的同步演进。

提示词:生成小蝌蚪找妈妈的故事,故事分为3个画面进行讲述,先单独生成三个画面的图片,然后生成所有图片对应的故事文本。

体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

 

就算不指定画面风格,也会保持统一。

 

2. 对话式图像编辑:自然语言驱动的迭代优化

Gemini 2.0 Flash 支持通过多轮自然语言对话进行图像编辑。这为用户迭代优化图像,或共同探索不同创意方向提供了便利。模型能够在对话过程中保持上下文理解,根据用户的指令逐步调整图像,直至达到理想效果。

体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

纯文字提示编辑图像,除了颜色其他细节没有改变,这次真的做到了言出法随!

 

3. 世界知识融入:创造更精准的图像

与其他图像生成模型不同,Gemini 2.0 Flash 利用其强大的世界知识和推理能力来生成更准确的图像。这使得它在创建需要高度写实性的图像时表现出色,例如,用于说明菜谱的图像。尽管 Gemini 2.0 Flash 力求准确,但与所有语言模型一样,它的知识是广泛而通用的,并非绝对完整。这意味着,在特定领域的专业知识方面,模型可能存在局限性。

提示词:帮我生成一份墨西哥餐厅菜谱,文字+配图形式

体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

 

4. 文本渲染能力:长文本准确呈现

大多数图像生成模型在准确渲染长文本序列时会遇到困难,经常出现格式错乱、字符难以辨认或拼写错误等问题。内部评测显示,Gemini 2.0 Flash 在文本渲染方面优于其他领先模型。这使得它非常适合创建广告、社交媒体帖子,甚至是邀请函等需要包含大量文字的图像内容。

提示词:一张旧报纸,上面书写大标题“今日热点新闻”,下面是新闻的具体内容。

体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

中文略差,输出长英文文本效果较好。

体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

英文效果满分?

 

更多让人惊喜的图像编辑示例

人像图片换脸

体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

开个玩笑...

 

体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

 

面部表情布局微调

体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

 

多张照片元素合成

体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

上传两张人物照片,第一张选用的是马斯克半身像,第二章选择的是美女全身像,进行合成。这个玩法想象空间很大。

 

修复老照片

体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

一次修复不好,可以多试几次,同时照片细节也放大。

 

图片上色

体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

 

当然也支持老照片上色

体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

 

从LOGO风格转换到印刷物成品展示

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

 

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力-1

 

立即体验 Gemini 图像生成

开发者可以通过 Gemini API 开始使用 Gemini 2.0 Flash。更多关于图像生成的信息,请参考文档

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

无论是构建 AI 代理,开发具有精美视觉效果的应用(如互动故事),还是在对话中进行视觉创意构思,Gemini 2.0 Flash 都能够帮助开发者通过单一模型同时实现文本和图像的生成。 Google 期待看到开发者利用原生图像输出功能创造出更多应用,并希望开发者提供反馈,以帮助 Gemini 团队尽快完成生产就绪版本的开发。

CDN1
未经允许不得转载:首席AI分享圈 » 带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文