Modelo de generación de imágenes CogView4, ¡anunciado como código abierto!

Noticias AIActualizado hace 1 año Círculo de intercambio de inteligencia artificial

38.8K 00

Fusión de arte clásico chino y elementos modernos, esta imagen se inspira en la obra Mil millas de ríos y montañas, del pintor de la dinastía Song del Norte Wang Ximeng. La imagen muestra un magnífico paisaje en pergamino, con la técnica del paisaje verde que da como resultado colinas ondulantes y vastos ríos, ricas capas de color y exquisitos detalles. Sobre este pintoresco paisaje, aparece sutilmente un carácter de pincel "CogView4", con una fuente fuerte y poderosa, y la tinta tiene el tono adecuado, como si fuera una pincelada improvisada hecha por un antiguo literato mientras disfrutaba del paisaje. Las palabras "CogView4" complementan el paisaje circundante, sin ser demasiado abruptas ni demasiado armoniosas, sino más bien añadiendo una sensación de diálogo a través del tiempo y el espacio. Todo el cuadro tiene el sabor del paisaje clásico, pero también incorpora elementos de la tecnología moderna, presentando una tensión artística única, que permite a la gente apreciar la estética tradicional y al mismo tiempo sentir la colisión y fusión de la creatividad moderna.

Hoy hemos lanzado oficialmente nuestro último modelo de generación de imágenes, CogView4.

El modelo tiene una gran capacidad de alineación semántica compleja y de seguimiento de comandos, admite entradas bilingües de longitud arbitraria, genera imágenes de resolución arbitraria dentro de un rango determinado y tiene una gran capacidad de generación de texto. También es el primer modelo de generación de imágenes de código abierto bajo el protocolo Apache 2.0.

I. Evaluación

DPG-Bench (Dense Prompt Graph Benchmark) es una prueba de referencia para evaluar modelos de generación de texto a imagen, centrada en el rendimiento de los modelos en términos de alineación semántica compleja y capacidades de seguimiento de instrucciones.

CogView4-6B, que tiene la puntuación global nº 1 en las pruebas comparativas DPG-Bench y alcanza SOTA en el modelo gráfico de código abierto Vincennes.

II. Longitud arbitraria y resolución arbitraria

El modelo CogView4 aplica un paradigma de entrenamiento híbrido de descripciones de texto de longitud arbitraria e imágenes de resolución arbitraria.

1、Codificación de la posición de la imagen

CogView4 utiliza 2D Rotational Position Encoding (2D RoPE) para modelar la información posicional de una imagen y soporta tareas de generación de imágenes a diferentes resoluciones interpolando la codificación posicional.

2. Modelización de la generación de difusión

El modelo se modela utilizando un esquema Flow-matching para la generación de difusión, combinado con una planificación dinámica lineal paramétrica del ruido para adaptarse a los requisitos de relación señal-ruido de las imágenes de diferente resolución.

3、Diseño arquitectónico

En cuanto a la arquitectura del modelo DiT, CogView4 continúa la arquitectura Share-param DiT de su predecesor y diseña capas LayerNorm adaptativas independientes para las modalidades de texto e imagen por separado para lograr una adaptación intermodal eficiente.

4. Formación en varias etapas

CogView4 emplea una estrategia de formación por etapas que incluye la formación en resolución base, la formación en resolución panorámica, el ajuste de datos de alta calidad y la formación en alineación con las preferencias humanas. Este enfoque de formación por etapas no solo cubre una amplia gama de distribuciones de imágenes, sino que también garantiza que las imágenes generadas sean muy agradables estéticamente y se ajusten a las preferencias humanas.

5. Optimización del marco de formación

Desde el punto de vista textual, CogView4 supera la limitación tradicional de la longitud fija de los tokens al permitir límites superiores de tokens más altos y reducir significativamente la redundancia textual de tokens durante el entrenamiento. Cuando la longitud media del subtítulo de entrenamiento se sitúa en el rango de 200-300 tokens, CogView4 reduce la redundancia de tokens en unos 50% en comparación con el esquema tradicional con 512 tokens fijos, y logra una mejora de la eficiencia de 5%-30% en la fase de entrenamiento progresivo del modelo.

Desde el punto de vista de la imagen, el entrenamiento con resoluciones mixtas permite al modelo generar resoluciones arbitrarias en un amplio rango, lo que aumenta enormemente la libertad creativa. La resolución de destino solo tiene que cumplir las siguientes condiciones:

Ambas cosas pueden aumentar enormemente la libertad creativa.

Ejemplo: historia extralarga (cómic de cuatro viñetas)

Por favor, genere un dibujo de cómic de cuatro paneles que contenga cuatro escenas en un cómic estilo ilustración de anime. Los personajes principales que aparecen en ellas son: Xiao Ming: un chico humano de corazón valiente, que sostiene una espada y viste un sencillo traje de guerrero.

Princesa: una hembra humana, bella y elegante, vestida con un precioso traje de princesa, encarcelada en la guarida de un monstruo.

El Rey: un varón humano, majestuoso y benévolo, vestido con un ornamentado atuendo real y sentado en el trono del reino.

Dragón de llamas: un monstruo cubierto de escamas llameantes, que escupe llamas y tiene un tamaño enorme.

Señor Oscuro: Monstruo, de enorme tamaño y envuelto en oscuridad, posee un gran poder mágico.

Escena 1: Xiao Ming emprende un viaje

Crea una escena de estilo anime con un magnífico patio del reino de fondo. El protagonista de la escena es Kotomine (un niño humano de corazón valiente, que sostiene una espada y viste un sencillo traje de guerrero), que aparece en una pose embarcándose en un viaje. Incluye detalles de las flores del patio y el castillo a lo lejos, con la luz del sol matutino que transmite valentía y determinación. Calidad: obra maestra, mejor calidad, superdetallado, 4k

Escena 2: Ming derrota al Dragón de Llamas

Crea una escena de estilo anime con un cráter ardiente de fondo. El protagonista de la escena es Kotomine (un niño humano de corazón valiente, que sostiene una espada y viste un sencillo traje de guerrero), que se encuentra en el momento de la victoria sobre un dragón en llamas. Incluye detalles de las rocas y la lava del cráter, y la ardiente iluminación roja transmite fiereza y valentía. Calidad: obra maestra, la mejor calidad, superdetallado, 4k

Escena 3: ¡Ming lucha contra el Señor Oscuro!

Crea una escena de estilo anime con una tenebrosa guarida de monstruos de fondo. El protagonista de la escena es Ming (un niño humano de corazón valiente, espada en mano y un sencillo traje de guerrero), que se encuentra en medio de una feroz batalla contra el Señor Oscuro. Incluye detalles de la oscuridad y la energía mágica de la guarida, y la sombría iluminación transmite intensidad y tensión. Calidad: obra maestra, mejor calidad, superdetallado, 4k

Escena 4: Ming rescata a la Princesa

Crea una escena de estilo anime con el interior de un castillo desierto de fondo. Los personajes principales de la escena son Ming (un niño humano de corazón valiente, que sostiene una espada y viste un sencillo traje de guerrero) y la Princesa (una mujer humana, bella y elegante, que viste un precioso traje de princesa), que protagonizan la conmovedora escena en la que Ming rescata a la Princesa. Incluye detalles de las ruinas interiores del castillo y una iluminación tenue, y la suave iluminación transmite conmoción y redención. Calidad: obra maestra, la mejor calidad, superdetallado, 4k

C. Soporte para chino e inglés

En cuanto a la implementación técnica, CogView4 cambia el codificador de texto de un codificador T5 exclusivamente inglés a un codificador bilingüe GLM-4, y se entrena con pares gráficos bilingües, de modo que el modelo CogView4 tiene la capacidad de introducir palabras prontas bilingües.

Hasta la fecha, CogView4 es el primer modelo gráfico de código abierto generado por texto que admite la introducción bilingüe de palabras clave, y es especialmente bueno en la comprensión y el seguimiento de claves chinas y en la generación de caracteres chinos en la pantalla. Estas dos características son más adecuadas para una amplia gama de necesidades creativas en publicidad nacional, vídeos cortos y otros campos.

Esta imagen muestra una pared inspirada en el punk con colores vivos y punzantes. Cubierta de negro intenso, la pared está cubierta de capas de graffiti de colores brillantes, que incluyen líneas afiladas, remaches y brillantes pegatinas metálicas que reflejan el espíritu de rebelión y libertad. En el centro de la pared, "CogView-4" está escrito con letras blancas pintadas con spray y bordes deshilachados y salpicados, añadiendo una estética de arte callejero descarnado. Debajo de "CogView-4", con la misma pintura blanca en aerosol, aparecen las palabras "Unbroken, Unreliant", en el mismo estilo que las anteriores, pero en un tamaño ligeramente más pequeño, creando una sensación de jerarquía visual. Alrededor de estas cuatro palabras hay pequeños símbolos de graffiti, como estrellas, calaveras y llamas, que refuerzan aún más los elementos icónicos de la cultura punk. También hay algunas grietas y pintura descascarillada apenas visibles en el fondo de la pared, que aluden a las huellas del tiempo y al poder del cambio constante. Todo el cuadro está lleno de vigor y tensión, interpretando a la perfección el espíritu rebelde y las ideas innovadoras de la cultura punk.

IV. Protocolo Apache

El modelo CogView4-6B es compatible con el protocolo Apache2.0, y posteriormente añadirá ControlNet, ComfyUI y otros eco-soportes, pronto estará disponible un conjunto completo de herramientas de ajuste.

Dirección del repositorio de código abierto: https://github.com/THUDM/CogView4

Almacén Modelo:

https://huggingface.co/THUDM/CogView4-6B

https://modelscope.cn/models/ZhipuAI/CogView4-6B

actualizado CogView4 El modelo se pondrá en marcha el 13 de marzo en chatglm.cn.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

¡El último artículo de 10.000 palabras de Claude CEO es más racional y práctico que Sam Altman!

Noticias AI

hace 1 año

056K

Motor de inferencia de búsqueda inteligente basada en el cuerpo con SimpleQA de hasta 88,31 TP3T de precisión.

Noticias AI

hace 12 meses

041.1K

Alibaba AI Research Institute lanza CosyVoice 2: un modelo mejorado de síntesis de voz en streaming

Noticias AI

hace 1 año

051.1K

VIGGLE lanza Lip Sync basado en voz: ahora hacer vídeo más que cantar y bailar, rap...

Noticias AI

hace 1 año

067.2K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Modelo de generación de imágenes CogView4, ¡anunciado como código abierto!

I. Evaluación

II. Longitud arbitraria y resolución arbitraria

C. Soporte para chino e inglés

IV. Protocolo Apache

Google Colab lanza Data Science Agent, ¡una herramienta de IA!

El futuro ya está aquí: una mirada en profundidad a la era del "modelo como producto

Artículos relacionados

¡El último artículo de 10.000 palabras de Claude CEO es más racional y práctico que Sam Altman!

Motor de inferencia de búsqueda inteligente basada en el cuerpo con SimpleQA de hasta 88,31 TP3T de precisión.

Alibaba AI Research Institute lanza CosyVoice 2: un modelo mejorado de síntesis de voz en streaming

VIGGLE lanza Lip Sync basado en voz: ahora hacer vídeo más que cantar y bailar, rap...

Sin comentarios

Últimas colecciones

Últimos artículos

Modelo de generación de imágenes CogView4, ¡anunciado como código abierto!

I. Evaluación

II. Longitud arbitraria y resolución arbitraria

C. Soporte para chino e inglés

IV. Protocolo Apache

Google Colab lanza Data Science Agent, ¡una herramienta de IA!

El futuro ya está aquí: una mirada en profundidad a la era del "modelo como producto

Artículos relacionados

¡El último artículo de 10.000 palabras de Claude CEO es más racional y práctico que Sam Altman!

Motor de inferencia de búsqueda inteligente basada en el cuerpo con SimpleQA de hasta 88,31 TP3T de precisión.

Alibaba AI Research Institute lanza CosyVoice 2: un modelo mejorado de síntesis de voz en streaming

VIGGLE lanza Lip Sync basado en voz: ahora hacer vídeo más que cantar y bailar, rap...

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos