Qwen-Image - Tongyi Qianqian lanza el modelo básico de código abierto de Qwen-Image

Qué es Qwen-Image

Qwen-Image es un modelo base de generación de imágenes de código abierto lanzado por el equipo Alibaba Tongyi Qianqian. Con 20.000 millones de parámetros, adopta la arquitectura de transformador de difusión multimodal (MMDiT), que integra los tres módulos de comprensión multimodal, codificación de alta resolución y modelado de difusión.La principal ventaja de Qwen-Image reside en la potente representación de texto complejo y las precisas funciones de edición de imágenes, que pueden generar imágenes de texto en chino e inglés con diseños de varias líneas y detalles finos, y admiten diversas operaciones, como migración de estilos, adiciones, supresiones y cambios. operaciones como migración de estilos, adiciones, supresiones y cambios. Qwen-Image ha sido clasificado como el primer modelo de código abierto en la evaluación pública de AI Arena, con un excelente rendimiento en la renderización de texto chino.Qwen-Image es adecuado para el diseño de carteles, la producción de PPT, el marketing de marca y otros escenarios, y soporta la experiencia en línea y el despliegue local, que está disponible para los usuarios a través de plataformas como Hugging Face, ModelScope y así sucesivamente.

Qwen-Image - 通义千问推出开源的文生图基础模型

Principales características de Qwen-Image

  • Generación de imágenes
    • Generación multiestiloSe pueden generar decenas de tipos de imágenes, como realistas, de anime, ciberpunk, de ciencia ficción, minimalistas, retro, surrealistas, de tinta, etc.
    • representación de texto: Puede manejar diseños multilínea, semántica a nivel de párrafo y detalles finos, admite el bilingüismo y permite diseños gráficos complejos en varias ubicaciones.
  • edición de imágenes
    • migración de estilosConvierte imágenes a un estilo artístico específico.
    • manipulación de objetos: Inserta y elimina elementos de la escena con precisión.
    • Mejora de los detalles: Optimiza la calidad local de la imagen.
    • corrector de textos: Modifica el texto incrustado en la imagen.
    • control de actitudAjuste de los patrones de movimiento de los personajes.
  • comprensión gráfica
    • Detección de objetos y segmentación semántica: Reconocimiento y segmentación de objetos en una imagen.
    • Estimación de la profundidad/borde Danny: Realiza la estimación de profundidad y la detección de bordes.
    • Síntesis de nuevas perspectivas: Genera imágenes desde diferentes puntos de vista.
    • Reconstrucción de superresoluciónMejora de la resolución de la imagen.

Dirección del proyecto Qwen-Image

  • Repositorio GitHub:: https://github.com/QwenLM/Qwen-Image
  • Biblioteca de modelos HuggingFace:: https://huggingface.co/Qwen/Qwen-Image
  • Documentos técnicos:: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
  • Demostración de la experiencia en línea:: https://huggingface.co/spaces/Qwen/Qwen-Image

Cómo utilizar Qwen-Image

  • Visita QwenChat: Acceso Chat de Qwen Página web oficial.
  • Seleccione la función de generación de imágenes: En la interfaz de QwenChat, busca y selecciona la función "Generación de imágenes".
  • Introducir textoIntroduzca una descripción de la imagen que desea generar en el cuadro de entrada de texto.
  • Generación de imágenesHaga clic en el botón "Generar" y Qwen-Image generará la imagen según las indicaciones del texto.
  • Ver y descargar imágenes generadasLa imagen generada se muestra en la interfaz y el usuario puede ver el efecto generado y elegir descargarlo y guardarlo localmente.

Puntos fuertes de Qwen-Image

  • Renderizado de texto complejoEl sistema de generación de imágenes de IA de la empresa está diseñado para representar con precisión texto chino e inglés con diseños de varias líneas, semántica a nivel de párrafo y detalles finos, llenando un vacío en el campo de la generación de imágenes chinas de IA.
  • Edición precisa de imágenes: Admite una amplia gama de operaciones, como migración de estilos, adiciones, supresiones, mejoras de detalles, edición de texto, ajustes de gestos de caracteres, etc., y puede mantener la coherencia semántica general y los detalles visuales de una imagen mientras sigue las órdenes del usuario.
  • Potentes funciones de generación de imágenes de uso general: Genere imágenes de alta calidad en diferentes estilos y temas artísticos, incluidos el fotorrealismo, la animación, la pintura, etc.

Qwen-Imagen Rendimiento

  • Tercer puesto general y primer puesto en modelos de código abierto en las revisiones públicas de AI Arena.
  • En pruebas de referencia como CVTG-2K, el renderizado de texto chino supera con creces a modelos de código cerrado como GPT Image 1 y Seedream 3.0.
  • En pruebas como LongText-Bench, ChineseWord y TextCraft, su capacidad de renderizado de texto, especialmente la generación de texto chino, es significativamente mejor que la de los modelos existentes.
Qwen-Image - 通义千问推出开源的文生图基础模型

Escenarios de aplicación de Qwen-Image

Los escenarios de aplicación de Qwen-Image incluyen: diseño de carteles, que puede utilizarse para carteles de películas, promociones de productos, promociones de eventos, etc. Puede maquetar automáticamente mensajes de texto de varias capas, admitir la representación precisa de logotipos de marcas y generar una variedad de estilos artísticos. Escenarios de comercio electrónico, generando diagramas de exposición de productos, carteles promocionales, etc., para mejorar el atractivo visual y promover las ventas. Contenido de medios sociales, generar rápidamente imágenes adaptadas al tamaño de una variedad de plataformas de medios sociales, para gráficos de microblogging, compartir en círculos de amigos, etc., con efectos visuales llamativos.

© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...