Qwen-Image - Tongyi Qianqian запускает базовую модель Qwen-Image с открытым исходным кодом

Что такое Qwen-Image

Qwen-Image - это базовая модель генерации изображений с открытым исходным кодом, выпущенная командой Alibaba Tongyi Qianqian. Имея 20 миллиардов параметров, она использует архитектуру Multimodal Diffusion Transformer Architecture (MMDiT), которая объединяет три модуля мультимодального понимания, кодирования высокого разрешения и моделирования диффузии. Основное преимущество Qwen-Image заключается в мощном рендеринге сложного текста и точных функциях редактирования изображений, которые могут генерировать китайские и английские текстовые изображения, содержащие многострочные макеты и мелкие детали, и поддерживать различные операции, такие как перенос стиля, добавление, удаление и изменение. Операции, такие как перенос стиля, добавление, удаление и изменение. Qwen-Image заняла первое место среди моделей с открытым исходным кодом в публичной оценке AI Arena, показав отличные результаты в рендеринге китайского текста. Qwen-Image подходит для дизайна плакатов, производства PPT, маркетинга брендов и других сценариев, поддерживает онлайн-опыт и локальное развертывание, доступное пользователям через такие платформы, как Hugging Face, ModelScope и т.д.

Qwen-Image - 通义千问推出开源的文生图基础模型

Основные характеристики Qwen-Image

  • Генерация изображений
    • Генерация в нескольких стилях: Можно создавать десятки типов изображений, таких как реалистичные, аниме, киберпанк, sci-fi, минимализм, ретро, сюрреализм, чернила и т.д.
    • визуализация текста: Может обрабатывать многострочные макеты, семантику на уровне абзацев и мелких деталей, поддерживает китайский и английский языки, а также позволяет создавать сложные многопозиционные графические макеты.
  • редактирование изображений
    • миграция стиля: Преобразование изображений в определенный художественный стиль.
    • манипулирование объектами: Вставляйте и удаляйте элементы сцены с высокой точностью.
    • Улучшение деталей: Оптимизация локального качества изображения.
    • редактор копий: Изменение текста, встроенного в изображение.
    • управление положением: Настройка моделей движения персонажа.
  • графическое понимание
    • Обнаружение объектов и семантическая сегментация: Распознавание и сегментация объектов на изображении.
    • Оценка глубины/капризного края: Выполните оценку глубины и определение краев.
    • Синтез новых перспектив: Создавайте изображения с разных точек зрения.
    • Реконструкция со сверхразрешением: Повышение разрешения изображения.

Адрес проекта Qwen-Image

  • Репозиторий GitHub:: https://github.com/QwenLM/Qwen-Image
  • Библиотека моделей HuggingFace:: https://huggingface.co/Qwen/Qwen-Image
  • Технические документы:: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
  • Демонстрация опыта работы в режиме онлайн:: https://huggingface.co/spaces/Qwen/Qwen-Image

Как использовать Qwen-Image

  • Посетите QwenChat: Доступ Чат с друзьями Официальный сайт.
  • Выберите функцию создания изображения: В интерфейсе QwenChat найдите и выберите функцию "Генерация изображений".
  • Введите текстовую подсказку: Введите описание изображения, которое вы хотите создать, в поле ввода текста.
  • Создание изображений: Нажмите кнопку "Создать", и Qwen-Image создаст изображение в соответствии с текстовыми подсказками.
  • Просмотр и загрузка сгенерированных изображений: Сгенерированное изображение отображается в интерфейсе, и пользователь может просмотреть сгенерированный эффект и выбрать его для загрузки и сохранения в локальном режиме.

Основные преимущества Qwen-Image

  • Рендеринг сложных текстовСистема генерации изображений на основе искусственного интеллекта компании предназначена для точной визуализации китайского и английского текста с многострочными макетами, семантикой на уровне абзацев и мелкими деталями, заполняя пробел в области генерации изображений на основе искусственного интеллекта на китайском языке.
  • Точное редактирование изображений: Поддерживая широкий спектр операций, таких как перенос стилей, добавление, удаление, улучшение деталей, редактирование текста, корректировка жестов персонажей и т. д., он может поддерживать общую смысловую целостность и визуальные детали изображения, следуя командам пользователя.
  • Мощные возможности создания изображений общего назначения: Создавайте высококачественные изображения в различных художественных стилях и темах, включая фотореализм, анимацию, живопись и т.д.

Qwen-Image Performance

  • Занимает третье место в общем рейтинге и первое место среди моделей с открытым исходным кодом в публичных обзорах AI Arena.
  • В эталонных тестах, таких как CVTG-2K, рендеринг китайского текста значительно превосходит такие модели с закрытым исходным кодом, как GPT Image 1 и Seedream 3.0.
  • В таких тестах, как LongText-Bench, ChineseWord и TextCraft, возможности рендеринга текста, особенно китайского, значительно превосходят существующие модели.
Qwen-Image - 通义千问推出开源的文生图基础模型

Сценарии применения Qwen-Image

Сценарии применения Qwen-Image включают: дизайн плакатов, которые могут использоваться для афиш фильмов, рекламных акций, мероприятий и т.д. Он может автоматически выкладывать многослойные текстовые сообщения, поддерживать точную визуализацию логотипов брендов и генерировать различные художественные стили. Сценарии электронной коммерции, генерирование схем выкладки товаров, рекламных плакатов и т. д. для повышения визуальной привлекательности и стимулирования продаж. Контент для социальных сетей, быстрое создание изображений, адаптированных к размерам различных платформ социальных сетей, для графики микроблогов, обмена сообщениями с друзьями и т. д., с привлекательными визуальными эффектами.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...