Qwen-Image - 通义千问推出开源的文生图基础模型

46.4K 01

Qwen-Image是什么

Qwen-Image是阿里巴巴通义千问团队发布的开源图像生成基础模型。拥有200亿参数，采用多模态扩散变换器架构（MMDiT），融合了多模态理解、高分辨率编码和扩散模型三大模块。Qwen-Image的核心优势在于强大的复杂文本渲染能力和精准的图像编辑功能，能生成包含多行布局、精细细节的中英文文本图像，支持风格迁移、增删改等多种操作。在AI Arena公开评测中表现优异，位列开源模型第一，在中文文本渲染方面表现出色。Qwen-Image适用于海报设计、PPT制作、品牌营销等多种场景，支持在线体验和本地部署，用户可通过Hugging Face、ModelScope等平台获取。

Qwen-Image的主要功能

图像生成
- 多风格生成：可生成写实、动漫、赛博朋克、科幻、极简、复古、超现实、水墨等几十种类型的图片。
- 文本渲染：能处理多行布局、段落级语义和精细细节，支持中英双语，可实现复杂的多位置图文布局。
图像编辑
- 风格迁移：将图片转换为特定艺术风格。
- 对象操作：精准插入、移除场景元素。
- 细节增强：优化图像局部质量。
- 文字编辑：修改图像内嵌文字。
- 姿态控制：调整人物动作形态。
图像理解
- 对象检测与语义分割：对图像中的对象进行识别和分割。
- 深度/Canny边缘估计：进行深度估计和边缘检测。
- 新视角合成：从不同视角生成图像。
- 超分辨率重建：提升图像分辨率。

Qwen-Image的项目地址

GitHub仓库：https://github.com/QwenLM/Qwen-Image
HuggingFace模型库：https://huggingface.co/Qwen/Qwen-Image
技术论文：https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
在线体验Demo：https://huggingface.co/spaces/Qwen/Qwen-Image

如何使用Qwen-Image

访问 QwenChat：访问 Qwen Chat 官方网站。
选择图像生成功能：在 QwenChat 的界面中，找到并选择“图像生成”功能。
输入文本提示：在文本输入框中输入想要生成图像的描述。
生成图像：点击“生成”按钮，Qwen-Image 根据文本提示生成图像。
查看和下载生成的图像：生成的图像显示在界面上，用户能查看生成的效果，选择下载保存到本地。

Qwen-Image的核心优势

复杂文本渲染：能精准渲染多行布局、段落级语义以及精细细节的中英文文本，填补了中文 AI 图像生成领域的空白。
精准图像编辑：支持风格迁移、增删改、细节增强、文字编辑、人物姿态调整等多种操作，可在遵循用户指令的同时保持图像整体的语义连贯性和视觉细节。
强大的通用图像生成能力：能生成不同艺术风格和主题的高质量图像，包括照片写实、动漫、绘画等。

Qwen-Image性能表现

在 AI Arena 公开评测中位列总榜第三、开源模型第一。
在 CVTG-2K 等基准测试中，中文文本渲染表现显著优于 GPT Image 1、Seedream 3.0 等闭源模型。
在 LongText-Bench、ChineseWord 和 TextCraft 等测试中，其文本渲染能力，尤其是中文文本生成能力，显著优于现有模型。

Qwen-Image的应用场景

Qwen-Image的应用场景包括：海报设计，可用于电影海报、产品宣传、活动推广等，能自动布局多层文字信息，支持品牌标识的精确渲染，可生成多种艺术风格。电商场景图，生成商品展示图、促销海报等，提升视觉吸引力，促进销售。社交媒体内容，快速生成适配多种社交媒体平台尺寸的图片，用于微博配图、朋友圈分享等，具有吸引眼球的视觉效果。