CogView4: un modelo gráfico de código abierto para generar imágenes bilingües de alta definición en chino e inglés

Introducción general

CogView4 es un modelo de conversión de texto a gráficos de código abierto desarrollado por el KEG Lab de la Universidad de Tsinghua (THUDM), centrado en la conversión de descripciones de texto en imágenes de alta calidad. Es compatible con la entrada de pistas bilingües, y es especialmente bueno en la comprensión de pistas chinas y la generación de imágenes con caracteres chinos, lo que resulta ideal para el diseño de anuncios, la creación de vídeos cortos y otros escenarios. CogView4 es el primer modelo de código abierto compatible con la generación de caracteres chinos en pantalla y destaca en la alineación semántica compleja y el seguimiento de comandos. Se basa en el codificador de texto GLM-4-9B, admite la introducción de palabras de cualquier longitud y puede generar imágenes de hasta 2048 de resolución. El proyecto está alojado en GitHub, con código y documentación detallados, y ha atraído mucha atención y participación de desarrolladores y creadores.

El último modelo de CogView4 estará disponible el 13 de marzo discurso intelectualmente estimulante Página web oficial.

CogView4:生成中英双语高清图片的开源文生图模型

Experiencia en línea: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

 

Lista de funciones

  • Imágenes bilingües de generación de palabras clave: Admite descripciones tanto en chino como en inglés, y es capaz de entender y generar con precisión imágenes que coincidan con las pistas, con un rendimiento especialmente bueno de las escenas chinas.
  • Generación en pantalla de caracteres chinos: Genera texto chino claro en imágenes, adecuado para hacer carteles, anuncios y otros trabajos creativos que requieran contenido de texto.
  • Salida de resolución arbitrariaLa empresa admite la generación de imágenes de cualquier tamaño, desde baja resolución hasta 2048x2048, para satisfacer una amplia variedad de necesidades.
  • Soporte para palabras clave extralargasEl sistema acepta entradas de texto de cualquier longitud y puede manejar hasta 1024 tokens, lo que facilita la descripción de escenarios complejos.
  • Alineación semántica complejaCapta con precisión los detalles de las palabras buscadas y genera imágenes de alta calidad que coinciden con la semántica.
  • Personalización de modelos de código abiertoSe proporciona el código completo y los modelos preentrenados, y los desarrolladores pueden desarrollarlos u optimizarlos según sus necesidades.

 

Utilizar la ayuda

Proceso de instalación

CogView4 es un proyecto de código abierto basado en Python que requiere un entorno configurado localmente para ejecutarse. A continuación se detallan los pasos de instalación:

1. Preparación medioambiental

  • sistema operativoCompatible con Windows, Linux y macOS.
  • requisitos de hardwareSe recomiendan las GPU NVIDIA (al menos 16 GB de memoria de vídeo) para acelerar la inferencia; las CPU también pueden funcionar, pero son más lentas.
  • dependencia del software::
    • Python 3.8 o superior
    • PyTorch (se recomienda instalar la versión para GPU, torch>=2.0)
    • Git (para clonar repositorios)

2. Clonación de almacenes

Abra un terminal e introduzca el siguiente comando para descargar el código fuente del proyecto CogView4:

git clone https://github.com/THUDM/CogView4.git  
cd CogView4

3. Instalación de dependencias

El proyecto proporciona el archivo requirements.txt, ejecute el siguiente comando para instalar las bibliotecas necesarias:

pip install -r requirements.txt

Para la aceleración por GPU, asegúrate de instalar la versión correcta de PyTorch consultando, por ejemplo, el sitio oficial de PyTorch para los comandos de instalación:

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118

4. Descarga de modelos preentrenados

El modelo CogView4-6B debe descargarse manualmente de Hugging Face o del enlace oficial. Visite la página GitHub de THUDM para encontrar la dirección de descarga del modelo (p. ej. THUDM/CogView4-6B), extráigalo al directorio raíz del proyecto en la carpeta checkpoints carpeta. O descargar automáticamente por código:

from diffusers import CogView4Pipeline  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B")

5. Entorno de configuración

Si la memoria de vídeo es limitada, activa las opciones de optimización de memoria (por ejemplo. enable_model_cpu_offload), tal como se describe en las instrucciones de uso que figuran a continuación.

Cómo utilizar CogView4

Tras la instalación, los usuarios pueden llamar a CogView4 para generar imágenes mediante un script de Python. A continuación se detalla el procedimiento:

1. Generación de imágenes básicas

Cree un archivo Python (por ejemplo generate.py), introduzca el siguiente código:

from diffusers import CogView4Pipeline  
import torch  
# 加载模型到 GPU  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")  
# 优化显存使用  
pipe.enable_model_cpu_offload()  # 将部分计算移至 CPU  
pipe.vae.enable_slicing()        # 分片处理 VAE  
pipe.vae.enable_tiling()         # 分块处理 VAE  
# 输入提示词  
prompt = "一辆红色跑车停在阳光下的海边公路,背景是蔚蓝的海浪"  
image = pipe(  
prompt=prompt,  
guidance_scale=3.5,        # 控制生成图像与提示的贴合度  
num_images_per_prompt=1,   # 生成一张图像  
num_inference_steps=50,    # 推理步数,影响质量  
width=1024,                # 图像宽度  
height=1024                # 图像高度  
).images[0]  
# 保存图像  
image.save("output.png")

Ejecuta el script:

python generate.py

El resultado generará una imagen de 1024x1024 y la guardará como archivo output.png.

2. Generación de imágenes con caracteres chinos

CogView4 permite generar texto chino en imágenes, por ejemplo:

prompt = "一张写有‘欢迎体验 CogView4’的广告海报,背景是蓝天白云"  
image = pipe(prompt=prompt, width=1024, height=1024).images[0]  
image.save("poster.png")

Tras la ejecución, las palabras "Bienvenido a CogView4" aparecerán claramente en la imagen, lo que resulta adecuado para producir materiales promocionales.

3. Ajuste de la resolución

CogView4 admite la salida a cualquier resolución, por ejemplo, generando imágenes de 2048x2048:

image = pipe(prompt=prompt, width=2048, height=2048).images[0]  
image.save("high_res.png")

Nota: Las resoluciones más altas requieren más memoria de vídeo y se recomienda una GPU con 24 GB o más de memoria de vídeo.

4. Manejo de tacos muy largos

CogView4 puede manejar descripciones complejas como:

prompt = "一个热闹的古代中国集市,摊位上摆满陶瓷和丝绸,远处有山峦和夕阳,人们穿着传统汉服在购物"  
image = pipe(prompt=prompt, num_inference_steps=50).images[0]  
image.save("market.png")

Admite hasta 1024 tokens, analiza completamente textos largos y genera imágenes detalladas.

5. Optimizar el rendimiento

Si la memoria de vídeo es insuficiente, ajuste los parámetros:

  • inferior torch_dtype debido a torch.float16
  • aumentando num_inference_steps para mejorar la calidad (por defecto 50, recomendado 50-100)
  • utilizar pipe.enable_model_cpu_offload() Trasladar algunos modelos al cálculo en CPU

Funciones destacadas

Generar imágenes bilingües

El soporte bilingüe de CogView4 es su mayor atractivo. Por ejemplo, introduce palabras clave mezcladas:

prompt = "A futuristic city with neon lights and flying cars, 写着‘未来之城’的标志"  
image = pipe(prompt=prompt).images[0]  
image.save("future_city.png")

La imagen resultante contendrá tanto la descripción en inglés de la ciudad futura como el logotipo chino de "Ciudad futura", lo que demuestra una gran comprensión semántica.

Control de detalles de alta calidad

Ajustando guidance_scale(rango 1-10, por defecto 3,5), que controla hasta qué punto la imagen se ajusta a la pista. Cuanto mayor sea el valor, más se ajustará el detalle a la señal, pero puede sacrificar la creatividad:

image = pipe(prompt=prompt, guidance_scale=7.0).images[0]

Generación de lotes

Genera varias imágenes a la vez:

images = pipe(prompt=prompt, num_images_per_prompt=3).images  
for i, img in enumerate(images):  
img.save(f"output_{i}.png")

advertencia

  • Requisitos de memoria VGAMemoria de vídeo: se necesitan aproximadamente 16 GB de memoria de vídeo para generar una imagen de 1024x1024, y más de 24 GB para 2048x2048.
  • tiempo de inferencia: 50 pasos de razonamiento tardan entre 1 y 2 minutos (dependiendo del hardware).
  • Apoyo comunitarioSi tienes problemas, pide ayuda en la página de problemas de GitHub o consulta el LÉAME oficial.

Con estos pasos, los usuarios pueden iniciarse rápidamente en CogView4, generar imágenes de alta calidad y aplicarlas a proyectos creativos.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...