TokenVerse: Google открывает исходный код Whisk, творческого инструмента для смешивания нескольких стилей изображения

Новости ИИОбновлено 7 месяцев назад Круг обмена ИИ
6.7K 00

1. Введение: новая эра в создании изображений

В современный цифровой век технология создания изображений достигла впечатляющих успехов. Если вы дизайнер, художник или просто обычный человек, желающий создать персонализированный контент, инструменты для создания изображений помогут воплотить ваши идеи в жизнь. Однако традиционные методы создания изображений часто имеют свои недостатки, например, они не справляются со сложными комбинациями визуальных элементов или требуют выполнения утомительных действий.

TokenVerse Появление технологии генерации изображений открыло совершенно новые возможности. Он может не только извлекать различные визуальные элементы из одной или нескольких фотографий, но и свободно комбинировать их, создавая новое, креативное изображение. И что еще более интересно, так это то, чтоTokenVerse - это фреймворк Whisk с открытым исходным кодом.Это означает, что он унаследовал мощь и гибкость Whisk, но при этом предоставляет пользователям больше возможностей для настройки и расширения.

Оригинальный текст:https://arxiv.org/pdf/2501.12224

 

2. Что такое TokenVerse?

Представьте себе.Вы хотите создать изображение, котороеВ нем есть ваш любимый щенок,Его любимая игрушка - мяч.и специальный фон, которыйКак в солнечном парке.Традиционные методы могут потребоватьВам предлагается сгенерировать их отдельноЭлементы.Затем соедините их вручную.Но теперь.У меня есть решение! TokenVerse(математика) родВы можете сделать все это без труда.

TokenVerse это новый подход к созданию изображений, которыйОн позволяет создать список из одного листа илиИзвлечение из нескольких фотографий неОдни и те же визуальные элементы (болееНапример, предметы,Осанка,Свет,материалы и т.д.).Затем, свободно комбинируя эти элементы, выСоздайте совершенно новую,Креативные образы.

Основные функции:

1.Извлечение нескольких элементов::Из одной или нескольких фотографийОпределение и извлечение различий вВизуальные элементы
2.свободная комбинация::Легко сочетая в себе эти элементы, модельСоздает совершенно новый образ.
3.Нет необходимости в сложном управлении::Нет необходимости вручную сегментировать изображенияИли дайте сложные советыСлово.

 

3. Как работает TokenVerse?

3.1 Понимание изображений и текста

TokenVerse использует метод под названием DiT (диффузионный трансформатор) передовых моделей.Эта модель способна одновременноОбработка изображений и текстовых сообщенийСообщение.В частности.Чтобы понять ваши потребности, он проходит следующие этапы:

1.Анализ текстовых подсказок::Когда вы вводите описание(например, "aЩенок играет в парке.мяч"), когдаМодель анализирует значение каждого слова.
2.Определите визуальные элементы::Модель узнает текстРазличные видения, упомянутые вЭлементы.Например, "щенок","Мяч" и "Парк".
3.Обучение Индивидуальная ориентация::Для каждого визуального элементаМодель будет запущена в файле под названием пространство модуляции Нахождение виртуального пространстваопределенном направлении.Это направление представляет собойУникальные характеристики элементов.

3.2 Пространство модуляции: секретное оружие для создания изображений

Модуляционное пространство - это специальное пространство, котороеЗдесь модель дорабатывает образ.Переориентировав это пространство вМодели могут изменять определенные характеристики изображения, которыеНапример, цвета,Форма,Осанка и т.д.

  • Глобальное пространство модуляции (M)::затрагивая все элементы всего изображения.Но это может привести к нежелательным изменениям.
  • Пространство модуляции для каждого маркера (M+)::затрагивая только определенные визуальные элементы.Добейтесь более точного контроля.
TokenVerse:谷歌开源了多图风格混合创意工具 Whisk

Рис. 2. Ориентация глобального пространства модуляции ( M ) и пространства модуляции ( M + ) для каждого маркера.

 

3.3 Концептуальная изоляция: избегание вмешательства между элементами

Чтобы убедиться, что каждый визуальныйВсе элементы могут быть точно названыВзятие и комбинирование.TokenVerse использует метод под названием концептуальная изоляция Технология.Это все равно что дать каждому элементуНазначьте отдельный "комната".Не позволяйте им мешать друг другу.

 

4. Преимущества TokenVerse

4.1 Вископодобная сила

  • Создание высококачественных изображений: Whisk известен своими возможностями создания высококачественных изображений, которые унаследовал TokenVerse.
  • Возможности обработки насыщенного текста: Whisk способен обрабатывать сложные текстовые подсказки, а TokenVerse, соответственно, понимать сложный описательный текст.
  • масштабируемость: Расширяемость TokenVerse, как проекта с открытым исходным кодом, позволяет настраивать и расширять его в соответствии с потребностями пользователей.

4.2 Простота использования

  • Не требуется специальных навыков: Вам не нужно быть профессиональным дизайнером или программистом, чтобы легко использовать его.
  • Нет необходимости в сложном управленииВсе, что нужно, - это простое текстовое описание и несколько референсных изображений, а TokenVerse сделает все остальное.

4.3 Сильные возможности персонализации

  • Многоэлементная поддержка: Будь то объекты, позы, материалы или условия освещения, TokenVerse справится с этим.
  • бесшовная сборка: Различные элементы можно свободно комбинировать, создавая уникальные изображения.

4.4 Гибкий творческий подход

  • Извлечение нескольких элементов из одного изображенияНапример, извлечение людей, одежды и фона из фотографии.
  • Комбинируйте элементы из нескольких изображений: Например, объединение элементов из разных фотографий в совершенно новое изображение.

 

5. Практическое применение

5.1 Рассказывание историй

Вы можете использовать TokenVerse для создания серии изображений для вашей истории, каждое из которых будет содержать одних и тех же персонажей и сцены, но с разными сюжетами и деталями.

TokenVerse:谷歌开源了多图风格混合创意工具 Whisk

Рисунок 19. Результаты работы над рассказом. Слева показаны все персонажи, сцены и позы, которые появляются в рассказе. Справа - история, сгенерированная языковой моделью (LLM). Затем LLM обработала рассказ для создания подсказок, которые были использованы для создания сопровождающих изображений.

 

5.2 Создание персонализированного контента

Будь то создание персонализированных поздравительных открыток, персонализированных дисплеев для товаров или уникальных цифровых иллюстраций, TokenVerse сделает это легко.

5.3 Коммерческие приложения

  • рекламный дизайн: Создавайте более привлекательные рекламные образы.
  • маркетинг продукции: Создание высококачественных изображений продуктов для онлайн и офлайн продвижения.
  • разработка игр: Быстрое создание игровых персонажей, сцен и реквизита.

 

6. Предостережения

6.1 Конфликт концепций

В некоторых случаях, если два изображения содержат элементы с одинаковыми именами (например, две разные "куклы"), модели могут запутаться. Чтобы избежать этого, рекомендуется обозначать каждый элемент разными именами.

TokenVerse:谷歌开源了多图风格混合创意工具 Whisk

(a) Конфликтные заголовки (b) Использование соответствующих заголовков

 

6.2 Совместимость элементов

Некоторые комбинации элементов могут быть несовместимы, например, кукла с очень короткими конечностями может принимать позу, требующую рук и ног. Это может привести к появлению нежелательных результатов.

 

7. Резюме

TokenVerse это мощный инструмент для создания изображений, основанный на фреймворке с открытым исходным кодом Whisk и унаследовавший его мощь и гибкость. Понимая ваши текстовые подсказки и эталонные изображения, TokenVerse способен извлекать и комбинировать различные визуальные элементы, чтобы создать уникальное изображение, отвечающее вашим потребностям.

7.1 Основные достоинства

  • Сила венчика с открытым исходным кодом: создание высококачественных изображений, широкие возможности обработки текста, масштабируемость.
  • простота и удобство использования: Не требуется специальных навыков или сложных операций.
  • Мощные возможности персонализации: Многоэлементная поддержка, органично сочетающаяся между собой.
  • Гибкий творческий подход: Извлечение и комбинирование элементов из одного или нескольких изображений.

7.2 Перспективы на будущее

По мере того как фреймворк TokenVerse будет развиваться, а сообщество - вносить свой вклад, функциональность TokenVerse станет еще лучше, а сценарии применения - еще шире. Мы с нетерпением ждем, когда еще больше пользователей создадут удивительные изображения с помощью TokenVerse.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...