Experimente las funciones nativas de generación y edición de imágenes de Gemini 2.0 Flash.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

En diciembre del año pasado, Gemini 2.0 Flash mostró por primera vez sus capacidades de salida de imágenes nativas a un selecto grupo de probadores beta. Actualmente, los desarrolladores pueden añadir una nueva versión de Gemini 2.0 Flash al Google AI Studio Experimenta esta nueva función en todas las regiones compatibles. Los desarrolladores pueden acceder a esta nueva función a través de Google Estudio AI (versión experimental de gemini-2.0-flash-exp) y Géminis API para probar esta nueva función.

Gemini 2.0 Flash utiliza entradas multimodales, capacidades de razonamiento mejoradas y comprensión del lenguaje natural para generar imágenes. Esta tecnología combina una serie de funciones avanzadas que hacen de Gemini 2.0 Flash una solución única para la generación de imágenes.

Experiencia: https://aistudio.google.com/prompts/new_chat (Seleccione: Gemini 2.0 Flash Experimental)

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

A continuación se muestran algunos ejemplos de lo más destacado de la salida multimodal de Gemini 2.0 Flash:

 

1. Combinación de texto y gráficos: unidad de narración y presentación visual

Gemini 2.0 Flash genera imágenes basadas en la historia textual y mantiene la coherencia de los personajes y las escenas durante todo el proceso de narración. Además, el usuario puede dar su opinión, y el modelo puede ajustar el contenido de la historia o el estilo de la imagen en función de esa opinión, lo que permite que la historia y las ilustraciones evolucionen a la vez.

Palabra clave: Generar la historia de los renacuajos que buscan a sus madres, la historia se divide en 3 imágenes para contar, primero generar las imágenes de las tres imágenes individualmente, y luego generar el texto de la historia correspondiente a todas las imágenes.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Aunque no especifiques el estilo de la pantalla, permanecerá uniforme.

 

2. Edición conversacional de imágenes: optimización iterativa basada en el lenguaje natural

Gemini 2.0 Flash admite la edición de imágenes mediante múltiples rondas de diálogo en lenguaje natural. Esto facilita a los usuarios la optimización iterativa de una imagen o la exploración conjunta de diferentes direcciones creativas. El modelo mantiene la comprensión contextual durante el diálogo, ajustando gradualmente la imagen según las instrucciones del usuario hasta conseguir el resultado deseado.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Las indicaciones de sólo texto para editar la imagen, sin cambiar más detalles que el color, esta vez sí que han cumplido su cometido.

 

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

3. Integración del conocimiento del mundo: creación de una imagen más precisa

A diferencia de otros modelos de generación de imágenes, Gemini 2.0 Flash utiliza su potente conocimiento del mundo y sus capacidades de razonamiento para generar imágenes más precisas. Esto lo hace excelente para crear imágenes que requieran un alto grado de realismo, por ejemplo, las utilizadas para ilustrar una receta. Aunque Gemini 2.0 Flash busca la precisión, como ocurre con todos los modelos lingüísticos, su conocimiento es amplio y genérico, no absolutamente completo. Esto significa que el modelo puede tener limitaciones en cuanto a los conocimientos específicos del dominio.

Prompt word: Ayúdame a generar una receta de restaurante mexicano en forma de texto + imágenes adjuntas

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

4. Capacidad de representación de textos: representación precisa de textos largos

La mayoría de los modelos de generación de imágenes tienen dificultades para representar con precisión secuencias de texto largas, a menudo con problemas como errores de formato, caracteres ilegibles o faltas de ortografía. Las revisiones internas demuestran que Gemini 2.0 Flash supera a otros modelos líderes en la renderización de texto. Esto lo hace ideal para crear contenidos de imagen como anuncios, publicaciones en redes sociales e incluso invitaciones que necesitan contener mucho texto.

Pista: Un periódico antiguo con el titular "Today's Hot News" escrito en la parte superior y los detalles de la noticia debajo.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

El chino es ligeramente peor, la salida del texto largo en inglés es mejor.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

¿Efecto Full English?

 

Más ejemplos sorprendentes de edición de imágenes

Portrait Picture Face Swap

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Sólo bromeaba...

 

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Ajuste de la expresión facial

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Composición de varios elementos fotográficos

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Sube dos fotos de los personajes, la primera se eligió para ser un busto de Musk y el segundo capítulo se eligió para ser un retrato de cuerpo entero de una bella mujer para componer. Hay mucho margen para la imaginación con esta obra.

 

Restauración de fotografías antiguas

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Si no puedes arreglarlo bien una vez, puedes intentarlo varias veces mientras se amplían los detalles de la foto.

 

Colorear dibujos

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Y por supuesto apoyar el coloreado de fotografías antiguas

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Desde la conversión del estilo del logotipo hasta la presentación del material impreso acabado

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Experimente ya la generación de imágenes Gemini

Los desarrolladores pueden utilizar el API Géminis Primeros pasos con Gemini 2.0 Flash Para obtener más información sobre la generación de imágenes, consulte la secciónArchivo (informático).

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

Gemini 2.0 Flash permite a los desarrolladores generar texto e imágenes a partir de un único modelo, ya se trate de crear agentes de inteligencia artificial, desarrollar aplicaciones con efectos visuales de gran belleza, como la narración interactiva, o idear ideas visuales en un diálogo. Google espera que los desarrolladores creen más aplicaciones con salida de imagen nativa y desea recibir comentarios de los desarrolladores para ayudar al equipo de Gemini a completar una versión lista para producción lo antes posible.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...