Qwen-Image - Tongyi Qianqian lança modelo básico de código aberto da Qwen-Image

Recursos mais recentes de IAPublicado há 4 semanas Círculo de compartilhamento de IA

O que é Qwen-Image

O Qwen-Image é um modelo básico de geração de imagens de código aberto lançado pela equipe do Alibaba Tongyi Qianqian. Com 20 bilhões de parâmetros, ele adota a Multimodal Diffusion Transformer Architecture (MMDiT), que integra os três módulos de compreensão multimodal, codificação de alta resolução e modelagem de difusão. A principal vantagem do Qwen-Image está na poderosa renderização de textos complexos e nas funções precisas de edição de imagens, que podem gerar imagens de texto em chinês e inglês contendo layouts de várias linhas e detalhes finos, além de oferecer suporte a várias operações, como migração de estilo, adições, exclusões e alterações. operações como migração de estilo, adição, exclusão e alteração. A Qwen-Image foi classificada como o primeiro modelo de código aberto na avaliação pública da AI Arena, com excelente desempenho na renderização de texto em chinês. A Qwen-Image é adequada para design de pôsteres, produção de PPT, marketing de marca e outros cenários, e suporta experiência on-line e implantação local, que está disponível para os usuários por meio de plataformas como Hugging Face, ModelScope e outras.

Principais recursos do Qwen-Image

Geração de imagens
- Geração de vários estilosImagens: Podem ser gerados dezenas de tipos de imagens, como realista, anime, cyberpunk, ficção científica, minimalista, retrô, surreal, tinta etc.
- renderização de textoLayouts de várias linhas, semântica em nível de parágrafo e detalhes finos, suporte ao bilinguismo e permite layouts gráficos complexos em vários locais.
edição de imagens
- migração de estiloEstilo artístico: converte imagens em um estilo artístico específico.
- manipulação de objetosInserir e remover elementos de cena com precisão.
- Aprimoramento de detalhesOtimização da qualidade local da imagem: Otimize a qualidade local da imagem.
- editor de textoModificar o texto incorporado na imagem.
- controle de atitudeAjuste dos padrões de movimento dos personagens.
compreensão gráfica
- Detecção de objetos e segmentação semânticaReconhecimento e segmentação de objetos em uma imagem: reconhecimento e segmentação de objetos em uma imagem.
- Estimativa de profundidade/borda de inclinaçãoExecute a estimativa de profundidade e a detecção de bordas.
- Síntese de novas perspectivasGerar imagens de diferentes pontos de vista.
- Reconstrução de super-resoluçãoAprimoramento da resolução da imagem.

Endereço do projeto da Qwen-Image

Repositório do GitHub:: https://github.com/QwenLM/Qwen-Image
Biblioteca do modelo HuggingFace:: https://huggingface.co/Qwen/Qwen-Image
Documentos técnicos:: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
Demonstração da experiência on-line:: https://huggingface.co/spaces/Qwen/Qwen-Image

Como usar o Qwen-Image

Visite o QwenChat: Acesso Qwen Chat Site oficial.
Selecione a função de geração de imagemNa interface do QwenChat, localize e selecione a função "Image Generation" (Geração de imagens).
Inserir prompt de textoDigite uma descrição da imagem que você deseja gerar na caixa de entrada de texto.
Geração de imagensClique no botão "Generate" (Gerar) e o Qwen-Image gera a imagem de acordo com os prompts de texto.
Visualizar e fazer download de imagens geradasImagem gerada: A imagem gerada é exibida na interface e o usuário pode visualizar o efeito gerado e optar por fazer o download e salvá-lo localmente.

Principais pontos fortes da Qwen-Image

Renderização de texto complexoO sistema de geração de imagens de IA da empresa foi projetado para renderizar com precisão textos em chinês e inglês com layouts de várias linhas, semântica em nível de parágrafo e detalhes finos, preenchendo uma lacuna no campo de geração de imagens de IA em chinês.
Edição precisa de imagensSuporte a uma ampla gama de operações, como migração de estilo, adições, exclusões, aprimoramentos de detalhes, edição de texto, ajustes de gestos de caracteres, etc., ele pode manter a coerência semântica geral e os detalhes visuais de uma imagem enquanto segue os comandos do usuário.
Recursos avançados de geração de imagens de uso geralGeração de imagens de alta qualidade em diferentes estilos e temas artísticos, incluindo foto-realismo, animação, pintura etc.

Desempenho do Qwen-Image

Classificado em terceiro lugar geral e em primeiro lugar para modelos de código aberto nas análises públicas do AI Arena.
Em testes de benchmark, como o CVTG-2K, a renderização de texto em chinês supera significativamente os modelos de código fechado, como o GPT Image 1 e o Seedream 3.0.
Em testes como LongText-Bench, ChineseWord e TextCraft, seu recurso de renderização de texto, especialmente a geração de texto em chinês, é significativamente melhor do que os modelos existentes.

Cenários de aplicação do Qwen-Image

Os cenários de aplicação do Qwen-Image incluem: design de pôsteres, que pode ser usado para pôsteres de filmes, promoções de produtos, promoções de eventos, etc. Ele pode dispor automaticamente mensagens de texto em várias camadas, oferecer suporte à renderização precisa de logotipos de marcas e gerar uma variedade de estilos artísticos. Cenários de comércio eletrônico, gerando diagramas de exibição de produtos, pôsteres promocionais, etc., para melhorar o apelo visual e promover as vendas. Conteúdo de mídia social, gerando rapidamente imagens adaptadas ao tamanho de várias plataformas de mídia social, para gráficos de microblogging, compartilhamento de círculo de amigos etc., com efeitos visuais atraentes.