Оцените возможности Gemini 2.0 Flash по созданию и редактированию изображений.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

В декабре прошлого года Gemini 2.0 Flash впервые продемонстрировал избранной группе бета-тестеров свои возможности по выводу изображений. В настоящее время разработчики могут добавить новую версию Gemini 2.0 Flash в Студия искусственного интеллекта Google Эта новая функция доступна во всех поддерживаемых регионах. Разработчики могут получить доступ к этой новой функции через Google AI Studio (экспериментальная версия gemini-2.0-flash-exp) и Близнецы API, чтобы протестировать эту новую функцию.

Gemini 2.0 Flash использует мультимодальный ввод, расширенные возможности рассуждений и понимание естественного языка для создания изображений. Эта технология сочетает в себе ряд передовых возможностей, которые делают Gemini 2.0 Flash уникальным инструментом для создания изображений.

Опыт работы: https://aistudio.google.com/prompts/new_chat (Выбор: Gemini 2.0 Flash Experimental)

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Ниже приведены примеры основных возможностей мультимодального вывода Gemini 2.0 Flash:

 

1. сочетание текста и графики: единство повествования и визуального представления

Gemini 2.0 Flash генерирует изображения на основе текстовой истории и сохраняет последовательность персонажей и сцен на протяжении всего процесса повествования. Кроме того, пользователь может давать обратную связь, и модель может корректировать содержание рассказа или стиль изображения на основе обратной связи, что позволяет сюжету и иллюстрациям развиваться в тандеме.

Подсказка: Составьте рассказ о головастиках, которые ищут своих матерей, рассказ разделен на 3 картинки, сначала составьте картинки к трем картинкам по отдельности, а затем составьте текст рассказа, соответствующий всем картинкам.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Даже если вы не укажете стиль экрана, он останется единым.

 

2. разговорное редактирование изображений: итеративная оптимизация на основе естественного языка

Gemini 2.0 Flash поддерживает редактирование изображений с помощью нескольких раундов диалога на естественном языке. Это позволяет пользователям итеративно оптимизировать изображение или совместно исследовать различные творческие направления. Модель поддерживает контекстное понимание во время диалога, постепенно корректируя изображение в соответствии с инструкциями пользователя, пока не будет достигнут желаемый результат.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Текстовые подсказки для редактирования изображения, без изменения деталей, кроме цвета, на этот раз действительно оправдали ожидания!

 

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

3. Интеграция знаний о мире: создание более точного образа

В отличие от других моделей генерации изображений, Gemini 2.0 Flash использует свои мощные знания о мире и возможности рассуждений для создания более точных изображений. Это делает ее превосходной для создания изображений, требующих высокой степени реалистичности, например, изображений, используемых для иллюстрации рецептов. Хотя Gemini 2.0 Flash стремится к точности, как и все языковые модели, его знания являются широкими и общими, а не абсолютно полными. Это означает, что модель может быть ограничена в плане знаний, относящихся к конкретной области.

Задача слова: Помогите мне создать рецепт мексиканского ресторана в формате текст + изображение

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

4. возможность рендеринга текста: точное отображение длинных текстов

Большинство моделей генерации изображений с трудом справляются с точным воспроизведением длинных текстовых последовательностей, часто с такими проблемами, как неправильное форматирование, неразборчивые символы или опечатки. Внутренние обзоры показывают, что Gemini 2.0 Flash превосходит другие ведущие модели в области рендеринга текста. Это делает его идеальным для создания изображений, таких как рекламные объявления, посты в социальных сетях и даже приглашения, которые должны содержать много текста.

Разгадка: Старая газета, на которой сверху написан заголовок "Сегодняшние горячие новости", а под ним - конкретная новость.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Китайский язык немного хуже, вывод длинного английского текста лучше.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Полный английский эффект?

 

Еще больше удивительных примеров редактирования изображений

Портрет картинка обмен лицами

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Шучу...

 

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Тонкая настройка макета выражения лица

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Композиция из нескольких фотоэлементов

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Загрузите две фотографии персонажей: первая - бюст Маска, а вторая - портрет красивой женщины во весь рост для композиции. В этой пьесе есть большой простор для фантазии.

 

Реставрация старых фотографий

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

Если с одного раза не получилось, можно попробовать несколько раз при увеличении деталей фотографии.

 

Раскрашивание картинок

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

И, конечно, поддерживайте раскраску старых фотографий.

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

От преобразования стиля логотипа до презентации готовой печатной продукции

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

带你体验 Gemini 2.0 Flash 原生图像生成与编辑能力

 

Испытайте Gemini Image Generation прямо сейчас

Разработчики могут использовать Gemini API Начало работы с Gemini 2.0 Flash Для получения дополнительной информации о создании изображений см.(компьютерный) файл.

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

Будь то создание агентов искусственного интеллекта, разработка приложений с красивыми визуальными эффектами, например, интерактивных историй, или визуальные идеи в диалоге, Gemini 2.0 Flash позволяет разработчикам генерировать как текст, так и изображения на основе одной модели. Google надеется, что разработчики будут создавать больше приложений с нативным выводом изображений, и хотела бы получить отзывы от разработчиков, чтобы помочь команде Gemini как можно скорее завершить работу над готовой к производству версией.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...