Оцените возможности Gemini 2.0 Flash по созданию и редактированию изображений.

Практические уроки по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

61.1K 00

В декабре прошлого года Gemini 2.0 Flash впервые продемонстрировал избранной группе бета-тестеров свои возможности по выводу изображений. В настоящее время разработчики могут добавить новую версию Gemini 2.0 Flash в Студия искусственного интеллекта Google Эта новая функция доступна во всех поддерживаемых регионах. Разработчики могут получить доступ к этой новой функции через Google AI Studio (экспериментальная версия gemini-2.0-flash-exp) и Близнецы API, чтобы протестировать эту новую функцию.

Gemini 2.0 Flash использует мультимодальный ввод, расширенные возможности рассуждений и понимание естественного языка для создания изображений. Эта технология сочетает в себе ряд передовых возможностей, которые делают Gemini 2.0 Flash уникальным инструментом для создания изображений.

Опыт работы: https://aistudio.google.com/prompts/new_chat (Выбор: Gemini 2.0 Flash Experimental)

Ниже приведены примеры основных возможностей мультимодального вывода Gemini 2.0 Flash:

1. сочетание текста и графики: единство повествования и визуального представления

Gemini 2.0 Flash генерирует изображения на основе текстовой истории и сохраняет последовательность персонажей и сцен на протяжении всего процесса повествования. Кроме того, пользователь может давать обратную связь, и модель может корректировать содержание рассказа или стиль изображения на основе обратной связи, что позволяет сюжету и иллюстрациям развиваться в тандеме.

Подсказка: Составьте рассказ о головастиках, которые ищут своих матерей, рассказ разделен на 3 картинки, сначала составьте картинки к трем картинкам по отдельности, а затем составьте текст рассказа, соответствующий всем картинкам.

Даже если вы не укажете стиль экрана, он останется единым.

2. разговорное редактирование изображений: итеративная оптимизация на основе естественного языка

Gemini 2.0 Flash поддерживает редактирование изображений с помощью нескольких раундов диалога на естественном языке. Это позволяет пользователям итеративно оптимизировать изображение или совместно исследовать различные творческие направления. Модель поддерживает контекстное понимание во время диалога, постепенно корректируя изображение в соответствии с инструкциями пользователя, пока не будет достигнут желаемый результат.

Текстовые подсказки для редактирования изображения, без изменения деталей, кроме цвета, на этот раз действительно оправдали ожидания!

3. Интеграция знаний о мире: создание более точного образа

В отличие от других моделей генерации изображений, Gemini 2.0 Flash использует свои мощные знания о мире и возможности рассуждений для создания более точных изображений. Это делает ее превосходной для создания изображений, требующих высокой степени реалистичности, например, изображений, используемых для иллюстрации рецептов. Хотя Gemini 2.0 Flash стремится к точности, как и все языковые модели, его знания являются широкими и общими, а не абсолютно полными. Это означает, что модель может быть ограничена в плане знаний, относящихся к конкретной области.

Задача слова: Помогите мне создать рецепт мексиканского ресторана в формате текст + изображение

4. возможность рендеринга текста: точное отображение длинных текстов

Большинство моделей генерации изображений с трудом справляются с точным воспроизведением длинных текстовых последовательностей, часто с такими проблемами, как неправильное форматирование, неразборчивые символы или опечатки. Внутренние обзоры показывают, что Gemini 2.0 Flash превосходит другие ведущие модели в области рендеринга текста. Это делает его идеальным для создания изображений, таких как рекламные объявления, посты в социальных сетях и даже приглашения, которые должны содержать много текста.

Разгадка: Старая газета, на которой сверху написан заголовок "Сегодняшние горячие новости", а под ним - конкретная новость.

Китайский язык немного хуже, вывод длинного английского текста лучше.

Полный английский эффект?

Еще больше удивительных примеров редактирования изображений

Портрет картинка обмен лицами

Шучу...

Тонкая настройка макета выражения лица

Композиция из нескольких фотоэлементов

Загрузите две фотографии персонажей: первая - бюст Маска, а вторая - портрет красивой женщины во весь рост для композиции. В этой пьесе есть большой простор для фантазии.

Реставрация старых фотографий

Если с одного раза не получилось, можно попробовать несколько раз при увеличении деталей фотографии.

Раскрашивание картинок

И, конечно, поддерживайте раскраску старых фотографий.

От преобразования стиля логотипа до презентации готовой печатной продукции

Испытайте Gemini Image Generation прямо сейчас

Разработчики могут использовать Gemini API Начало работы с Gemini 2.0 Flash Для получения дополнительной информации о создании изображений см.(компьютерный) файл.

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)

Будь то создание агентов искусственного интеллекта, разработка приложений с красивыми визуальными эффектами, например, интерактивных историй, или визуальные идеи в диалоге, Gemini 2.0 Flash позволяет разработчикам генерировать как текст, так и изображения на основе одной модели. Google надеется, что разработчики будут создавать больше приложений с нативным выводом изображений, и хотела бы получить отзывы от разработчиков, чтобы помочь команде Gemini как можно скорее завершить работу над готовой к производству версией.

Практические уроки по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.