Qwen-Image - Tongyi Qianqian запускает базовую модель Qwen-Image с открытым исходным кодом

Последние ресурсы по искусственному интеллектуОпубликовано 8 месяцев назад Круг обмена ИИ

44.5K 01

Что такое Qwen-Image

Qwen-Image - это базовая модель генерации изображений с открытым исходным кодом, выпущенная командой Alibaba Tongyi Qianqian. Имея 20 миллиардов параметров, она использует архитектуру Multimodal Diffusion Transformer Architecture (MMDiT), которая объединяет три модуля мультимодального понимания, кодирования высокого разрешения и моделирования диффузии. Основное преимущество Qwen-Image заключается в мощном рендеринге сложного текста и точных функциях редактирования изображений, которые могут генерировать китайские и английские текстовые изображения, содержащие многострочные макеты и мелкие детали, и поддерживать различные операции, такие как перенос стиля, добавление, удаление и изменение. Операции, такие как перенос стиля, добавление, удаление и изменение. Qwen-Image заняла первое место среди моделей с открытым исходным кодом в публичной оценке AI Arena, показав отличные результаты в рендеринге китайского текста. Qwen-Image подходит для дизайна плакатов, производства PPT, маркетинга брендов и других сценариев, поддерживает онлайн-опыт и локальное развертывание, доступное пользователям через такие платформы, как Hugging Face, ModelScope и т.д.

Основные характеристики Qwen-Image

Генерация изображений
- Генерация в нескольких стилях: Можно создавать десятки типов изображений, таких как реалистичные, аниме, киберпанк, sci-fi, минимализм, ретро, сюрреализм, чернила и т.д.
- визуализация текста: Может обрабатывать многострочные макеты, семантику на уровне абзацев и мелких деталей, поддерживает китайский и английский языки, а также позволяет создавать сложные многопозиционные графические макеты.
редактирование изображений
- миграция стиля: Преобразование изображений в определенный художественный стиль.
- манипулирование объектами: Вставляйте и удаляйте элементы сцены с высокой точностью.
- Улучшение деталей: Оптимизация локального качества изображения.
- редактор копий: Изменение текста, встроенного в изображение.
- управление положением: Настройка моделей движения персонажа.
графическое понимание
- Обнаружение объектов и семантическая сегментация: Распознавание и сегментация объектов на изображении.
- Оценка глубины/капризного края: Выполните оценку глубины и определение краев.
- Синтез новых перспектив: Создавайте изображения с разных точек зрения.
- Реконструкция со сверхразрешением: Повышение разрешения изображения.

Адрес проекта Qwen-Image

Репозиторий GitHub:: https://github.com/QwenLM/Qwen-Image
Библиотека моделей HuggingFace:: https://huggingface.co/Qwen/Qwen-Image
Технические документы:: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
Демонстрация опыта работы в режиме онлайн:: https://huggingface.co/spaces/Qwen/Qwen-Image

Как использовать Qwen-Image

Посетите QwenChat: Доступ Чат с друзьями Официальный сайт.
Выберите функцию создания изображения: В интерфейсе QwenChat найдите и выберите функцию "Генерация изображений".
Введите текстовую подсказку: Введите описание изображения, которое вы хотите создать, в поле ввода текста.
Создание изображений: Нажмите кнопку "Создать", и Qwen-Image создаст изображение в соответствии с текстовыми подсказками.
Просмотр и загрузка сгенерированных изображений: Сгенерированное изображение отображается в интерфейсе, и пользователь может просмотреть сгенерированный эффект и выбрать его для загрузки и сохранения в локальном режиме.

Основные преимущества Qwen-Image

Рендеринг сложных текстовСистема генерации изображений на основе искусственного интеллекта компании предназначена для точной визуализации китайского и английского текста с многострочными макетами, семантикой на уровне абзацев и мелкими деталями, заполняя пробел в области генерации изображений на основе искусственного интеллекта на китайском языке.
Точное редактирование изображений: Поддерживая широкий спектр операций, таких как перенос стилей, добавление, удаление, улучшение деталей, редактирование текста, корректировка жестов персонажей и т. д., он может поддерживать общую смысловую целостность и визуальные детали изображения, следуя командам пользователя.
Мощные возможности создания изображений общего назначения: Создавайте высококачественные изображения в различных художественных стилях и темах, включая фотореализм, анимацию, живопись и т.д.

Qwen-Image Performance

Занимает третье место в общем рейтинге и первое место среди моделей с открытым исходным кодом в публичных обзорах AI Arena.
В эталонных тестах, таких как CVTG-2K, рендеринг китайского текста значительно превосходит такие модели с закрытым исходным кодом, как GPT Image 1 и Seedream 3.0.
В таких тестах, как LongText-Bench, ChineseWord и TextCraft, возможности рендеринга текста, особенно китайского, значительно превосходят существующие модели.

Сценарии применения Qwen-Image

Сценарии применения Qwen-Image включают: дизайн плакатов, которые могут использоваться для афиш фильмов, рекламных акций, мероприятий и т.д. Он может автоматически выкладывать многослойные текстовые сообщения, поддерживать точную визуализацию логотипов брендов и генерировать различные художественные стили. Сценарии электронной коммерции, генерирование схем выкладки товаров, рекламных плакатов и т. д. для повышения визуальной привлекательности и стимулирования продаж. Контент для социальных сетей, быстрое создание изображений, адаптированных к размерам различных платформ социальных сетей, для графики микроблогов, обмена сообщениями с друзьями и т. д., с привлекательными визуальными эффектами.

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.