Experimente las funciones nativas de generación y edición de imágenes de Gemini 2.0 Flash.

Tutoriales prácticos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

57.8K 00

En diciembre del año pasado, Gemini 2.0 Flash mostró por primera vez sus capacidades de salida de imágenes nativas a un selecto grupo de probadores beta. Actualmente, los desarrolladores pueden añadir una nueva versión de Gemini 2.0 Flash al Google AI Studio Experimenta esta nueva función en todas las regiones compatibles. Los desarrolladores pueden acceder a esta nueva función a través de Google Estudio AI (versión experimental de gemini-2.0-flash-exp) y Géminis API para probar esta nueva función.

Gemini 2.0 Flash utiliza entradas multimodales, capacidades de razonamiento mejoradas y comprensión del lenguaje natural para generar imágenes. Esta tecnología combina una serie de funciones avanzadas que hacen de Gemini 2.0 Flash una solución única para la generación de imágenes.

Experiencia: https://aistudio.google.com/prompts/new_chat (Seleccione: Gemini 2.0 Flash Experimental)

A continuación se muestran algunos ejemplos de lo más destacado de la salida multimodal de Gemini 2.0 Flash:

1. Combinación de texto y gráficos: unidad de narración y presentación visual

Gemini 2.0 Flash genera imágenes basadas en la historia textual y mantiene la coherencia de los personajes y las escenas durante todo el proceso de narración. Además, el usuario puede dar su opinión, y el modelo puede ajustar el contenido de la historia o el estilo de la imagen en función de esa opinión, lo que permite que la historia y las ilustraciones evolucionen a la vez.

Palabra clave: Generar la historia de los renacuajos que buscan a sus madres, la historia se divide en 3 imágenes para contar, primero generar las imágenes de las tres imágenes individualmente, y luego generar el texto de la historia correspondiente a todas las imágenes.

Aunque no especifiques el estilo de la pantalla, permanecerá uniforme.

2. Edición conversacional de imágenes: optimización iterativa basada en el lenguaje natural

Gemini 2.0 Flash admite la edición de imágenes mediante múltiples rondas de diálogo en lenguaje natural. Esto facilita a los usuarios la optimización iterativa de una imagen o la exploración conjunta de diferentes direcciones creativas. El modelo mantiene la comprensión contextual durante el diálogo, ajustando gradualmente la imagen según las instrucciones del usuario hasta conseguir el resultado deseado.

Las indicaciones de sólo texto para editar la imagen, sin cambiar más detalles que el color, esta vez sí que han cumplido su cometido.

3. Integración del conocimiento del mundo: creación de una imagen más precisa

A diferencia de otros modelos de generación de imágenes, Gemini 2.0 Flash utiliza su potente conocimiento del mundo y sus capacidades de razonamiento para generar imágenes más precisas. Esto lo hace excelente para crear imágenes que requieran un alto grado de realismo, por ejemplo, las utilizadas para ilustrar una receta. Aunque Gemini 2.0 Flash busca la precisión, como ocurre con todos los modelos lingüísticos, su conocimiento es amplio y genérico, no absolutamente completo. Esto significa que el modelo puede tener limitaciones en cuanto a los conocimientos específicos del dominio.

Prompt word: Ayúdame a generar una receta de restaurante mexicano en forma de texto + imágenes adjuntas

4. Capacidad de representación de textos: representación precisa de textos largos

La mayoría de los modelos de generación de imágenes tienen dificultades para representar con precisión secuencias de texto largas, a menudo con problemas como errores de formato, caracteres ilegibles o faltas de ortografía. Las revisiones internas demuestran que Gemini 2.0 Flash supera a otros modelos líderes en la renderización de texto. Esto lo hace ideal para crear contenidos de imagen como anuncios, publicaciones en redes sociales e incluso invitaciones que necesitan contener mucho texto.

Pista: Un periódico antiguo con el titular "Today's Hot News" escrito en la parte superior y los detalles de la noticia debajo.

El chino es ligeramente peor, la salida del texto largo en inglés es mejor.

¿Efecto Full English?

Más ejemplos sorprendentes de edición de imágenes

Portrait Picture Face Swap

Sólo bromeaba...

Ajuste de la expresión facial

Composición de varios elementos fotográficos

Sube dos fotos de los personajes, la primera se eligió para ser un busto de Musk y el segundo capítulo se eligió para ser un retrato de cuerpo entero de una bella mujer para componer. Hay mucho margen para la imaginación con esta obra.

Restauración de fotografías antiguas

Si no puedes arreglarlo bien una vez, puedes intentarlo varias veces mientras se amplían los detalles de la foto.

Colorear dibujos

Y por supuesto apoyar el coloreado de fotografías antiguas

Desde la conversión del estilo del logotipo hasta la presentación del material impreso acabado

Experimente ya la generación de imágenes Gemini

Los desarrolladores pueden utilizar el API Géminis Primeros pasos con Gemini 2.0 Flash Para obtener más información sobre la generación de imágenes, consulte la secciónArchivo (informático).

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

Gemini 2.0 Flash permite a los desarrolladores generar texto e imágenes a partir de un único modelo, ya se trate de crear agentes de inteligencia artificial, desarrollar aplicaciones con efectos visuales de gran belleza, como la narración interactiva, o idear ideas visuales en un diálogo. Google espera que los desarrolladores creen más aplicaciones con salida de imagen nativa y desea recibir comentarios de los desarrolladores para ayudar al equipo de Gemini a completar una versión lista para producción lo antes posible.

Tutoriales prácticos sobre IA

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Hebilla tutorial: el uso de "nodos de código" será largo proceso de segmentación de texto

Tutoriales prácticos sobre IA

hace 2 años

050.3K

Explicar la aplicación práctica de la prueba de la aguja en el pajar

Tutoriales prácticos sobre IA

hace 2 años

047.2K

Cuando Gemini 2.5 se encuentra con Three.js, ¡la solución para animar demostraciones didácticas está completa!

Tutoriales prácticos sobre IA

hace 12 meses

062.4K

Adición de una interfaz de chat de IA sin despliegue a ollama en ejecución local

Tutoriales prácticos sobre IA

hace 1 año

049.3K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Experimente las funciones nativas de generación y edición de imágenes de Gemini 2.0 Flash.

1. Combinación de texto y gráficos: unidad de narración y presentación visual

2. Edición conversacional de imágenes: optimización iterativa basada en el lenguaje natural

3. Integración del conocimiento del mundo: creación de una imagen más precisa

4. Capacidad de representación de textos: representación precisa de textos largos