Em dezembro do ano passado, o Gemini 2.0 Flash apresentou seus recursos de saída de imagem nativa pela primeira vez a um seleto grupo de testadores beta. Atualmente, os desenvolvedores podem adicionar uma nova versão do Gemini 2.0 Flash ao Estúdio de IA do Google Experimente esse novo recurso em todas as regiões com suporte. Os desenvolvedores podem acessar esse novo recurso por meio do Google Estúdio de IA (versão experimental do gemini-2.0-flash-exp) e Gêmeos API para testar esse novo recurso.
O Gemini 2.0 Flash utiliza entrada multimodal, recursos de raciocínio aprimorados e compreensão de linguagem natural para gerar imagens. Essa tecnologia combina uma série de recursos avançados que tornam o Gemini 2.0 Flash especialmente adequado para a geração de imagens.
Experiência: https://aistudio.google.com/prompts/new_chat (Select: Gemini 2.0 Flash Experimental)
Veja abaixo alguns exemplos de destaques da saída multimodal do Gemini 2.0 Flash:
1. combinação de texto e gráficos: unidade de narrativa e apresentação visual
O Gemini 2.0 Flash gera imagens com base na história textual e mantém a consistência dos personagens e das cenas durante todo o processo de narração. Além disso, o usuário pode fornecer feedback, e o modelo pode ajustar o conteúdo da história ou o estilo da imagem com base no feedback, permitindo que a história e as ilustrações evoluam em conjunto.
Palavra-chave: Gere a história de girinos procurando suas mães; a história é dividida em três imagens para contar; primeiro gere as imagens das três imagens individualmente e, em seguida, gere o texto da história correspondente a todas as imagens.
Mesmo que você não especifique o estilo da tela, ele permanecerá uniforme.
2. edição de imagens em conversação: otimização iterativa orientada por linguagem natural
O Gemini 2.0 Flash oferece suporte à edição de imagens por meio de várias rodadas de diálogo em linguagem natural. Isso facilita a otimização iterativa de uma imagem pelos usuários ou a exploração conjunta de diferentes direções criativas. O modelo mantém a compreensão contextual durante o diálogo, ajustando gradualmente a imagem de acordo com as instruções do usuário até que o resultado desejado seja alcançado.
Os prompts somente de texto para editar a imagem, sem nenhuma alteração nos detalhes além da cor, realmente fizeram o que diziam na lata dessa vez!
3. integração do conhecimento mundial: criação de uma imagem mais precisa
Diferentemente de outros modelos de geração de imagens, o Gemini 2.0 Flash utiliza seus poderosos recursos de conhecimento do mundo e de raciocínio para gerar imagens mais precisas. Isso o torna excelente para a criação de imagens que exigem um alto grau de realismo, por exemplo, imagens usadas para ilustrar uma receita. Embora o Gemini 2.0 Flash busque a precisão, como acontece com todos os modelos de linguagem, seu conhecimento é amplo e genérico, não absolutamente completo. Isso significa que pode haver limitações para o modelo em termos de conhecimento específico do domínio.
Prompt word: Ajude-me a gerar uma receita de restaurante mexicano em formato de texto + imagem
4. capacidade de renderização de texto: renderização precisa de textos longos
A maioria dos modelos de geração de imagens tem dificuldade para renderizar com precisão sequências de texto longas, geralmente com problemas como formatação incorreta, caracteres ilegíveis ou erros de ortografia. As análises internas mostram que o Gemini 2.0 Flash supera outros modelos líderes na renderização de texto. Isso o torna ideal para a criação de conteúdo de imagem, como anúncios, publicações em mídias sociais e até mesmo convites que precisam conter muito texto.
Pista: um jornal antigo com a manchete "Today's Hot News" escrita no topo e os detalhes da notícia embaixo.
O chinês é um pouco pior, mas o texto longo em inglês é melhor.
Efeito inglês completo?
Mais exemplos surpreendentes de edição de imagens
Troca de rosto de retrato
Brincadeira...
Ajuste fino do layout da expressão facial
Composição de vários elementos fotográficos
Faça upload de duas fotos dos personagens, a primeira foi escolhida para ser um busto de Musk e a segunda foi escolhida para ser um retrato de corpo inteiro de uma bela mulher a ser composta. Há muito espaço para a imaginação com essa peça.
Restauração de fotografias antigas
Se não conseguir corrigi-lo bem uma vez, você pode tentar várias vezes enquanto os detalhes da foto estiverem ampliados.
Coloração de imagens
E, é claro, apoiar a coloração de fotografias antigas
Da conversão do estilo do logotipo à apresentação impressa finalizada
Experimente o Gemini Image Generation agora
Os desenvolvedores podem usar o API Gemini Primeiros passos com o Gemini 2.0 Flash Para obter mais informações sobre a geração de imagens, consulte a seçãoArquivo (de computador).
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)
Seja na criação de agentes de IA, no desenvolvimento de aplicativos com belos recursos visuais, como narrativas interativas, ou na concepção de ideias visuais em diálogos, o Gemini 2.0 Flash permite que os desenvolvedores gerem texto e imagens a partir de um único modelo. O Google espera que os desenvolvedores criem mais aplicativos com saída de imagem nativa e gostaria de receber feedback dos desenvolvedores para ajudar a equipe do Gemini a concluir uma versão pronta para produção o mais rápido possível.