CogView4: un modelo gráfico de código abierto para generar imágenes bilingües de alta definición en chino e inglés
Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial 2K 00
Introducción general
CogView4 es un modelo de conversión de texto a gráficos de código abierto desarrollado por el KEG Lab de la Universidad de Tsinghua (THUDM), centrado en la conversión de descripciones de texto en imágenes de alta calidad. Es compatible con la entrada de pistas bilingües, y es especialmente bueno en la comprensión de pistas chinas y la generación de imágenes con caracteres chinos, lo que resulta ideal para el diseño de anuncios, la creación de vídeos cortos y otros escenarios. CogView4 es el primer modelo de código abierto compatible con la generación de caracteres chinos en pantalla y destaca en la alineación semántica compleja y el seguimiento de comandos. Se basa en el codificador de texto GLM-4-9B, admite la introducción de palabras de cualquier longitud y puede generar imágenes de hasta 2048 de resolución. El proyecto está alojado en GitHub, con código y documentación detallados, y ha atraído mucha atención y participación de desarrolladores y creadores.
El último modelo de CogView4 estará disponible el 13 de marzo discurso intelectualmente estimulante Página web oficial.

Experiencia en línea: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
Lista de funciones
- Imágenes bilingües de generación de palabras clave: Admite descripciones tanto en chino como en inglés, y es capaz de entender y generar con precisión imágenes que coincidan con las pistas, con un rendimiento especialmente bueno de las escenas chinas.
- Generación en pantalla de caracteres chinos: Genera texto chino claro en imágenes, adecuado para hacer carteles, anuncios y otros trabajos creativos que requieran contenido de texto.
- Salida de resolución arbitrariaLa empresa admite la generación de imágenes de cualquier tamaño, desde baja resolución hasta 2048x2048, para satisfacer una amplia variedad de necesidades.
- Soporte para palabras clave extralargasEl sistema acepta entradas de texto de cualquier longitud y puede manejar hasta 1024 tokens, lo que facilita la descripción de escenarios complejos.
- Alineación semántica complejaCapta con precisión los detalles de las palabras buscadas y genera imágenes de alta calidad que coinciden con la semántica.
- Personalización de modelos de código abiertoSe proporciona el código completo y los modelos preentrenados, y los desarrolladores pueden desarrollarlos u optimizarlos según sus necesidades.
Utilizar la ayuda
Proceso de instalación
CogView4 es un proyecto de código abierto basado en Python que requiere un entorno configurado localmente para ejecutarse. A continuación se detallan los pasos de instalación:
1. Preparación medioambiental
- sistema operativoCompatible con Windows, Linux y macOS.
- requisitos de hardwareSe recomiendan las GPU NVIDIA (al menos 16 GB de memoria de vídeo) para acelerar la inferencia; las CPU también pueden funcionar, pero son más lentas.
- dependencia del software::
- Python 3.8 o superior
- PyTorch (se recomienda instalar la versión para GPU, torch>=2.0)
- Git (para clonar repositorios)
2. Clonación de almacenes
Abra un terminal e introduzca el siguiente comando para descargar el código fuente del proyecto CogView4:
git clone https://github.com/THUDM/CogView4.git
cd CogView4
3. Instalación de dependencias
El proyecto proporciona el archivo requirements.txt, ejecute el siguiente comando para instalar las bibliotecas necesarias:
pip install -r requirements.txt
Para la aceleración por GPU, asegúrate de instalar la versión correcta de PyTorch consultando, por ejemplo, el sitio oficial de PyTorch para los comandos de instalación:
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
4. Descarga de modelos preentrenados
El modelo CogView4-6B debe descargarse manualmente de Hugging Face o del enlace oficial. Visite la página GitHub de THUDM para encontrar la dirección de descarga del modelo (p. ej. THUDM/CogView4-6B
), extráigalo al directorio raíz del proyecto en la carpeta checkpoints
carpeta. O descargar automáticamente por código:
from diffusers import CogView4Pipeline
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B")
5. Entorno de configuración
Si la memoria de vídeo es limitada, activa las opciones de optimización de memoria (por ejemplo. enable_model_cpu_offload
), tal como se describe en las instrucciones de uso que figuran a continuación.
Cómo utilizar CogView4
Tras la instalación, los usuarios pueden llamar a CogView4 para generar imágenes mediante un script de Python. A continuación se detalla el procedimiento:
1. Generación de imágenes básicas
Cree un archivo Python (por ejemplo generate.py
), introduzca el siguiente código:
from diffusers import CogView4Pipeline
import torch
# 加载模型到 GPU
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")
# 优化显存使用
pipe.enable_model_cpu_offload() # 将部分计算移至 CPU
pipe.vae.enable_slicing() # 分片处理 VAE
pipe.vae.enable_tiling() # 分块处理 VAE
# 输入提示词
prompt = "一辆红色跑车停在阳光下的海边公路,背景是蔚蓝的海浪"
image = pipe(
prompt=prompt,
guidance_scale=3.5, # 控制生成图像与提示的贴合度
num_images_per_prompt=1, # 生成一张图像
num_inference_steps=50, # 推理步数,影响质量
width=1024, # 图像宽度
height=1024 # 图像高度
).images[0]
# 保存图像
image.save("output.png")
Ejecuta el script:
python generate.py
El resultado generará una imagen de 1024x1024 y la guardará como archivo output.png
.
2. Generación de imágenes con caracteres chinos
CogView4 permite generar texto chino en imágenes, por ejemplo:
prompt = "一张写有‘欢迎体验 CogView4’的广告海报,背景是蓝天白云"
image = pipe(prompt=prompt, width=1024, height=1024).images[0]
image.save("poster.png")
Tras la ejecución, las palabras "Bienvenido a CogView4" aparecerán claramente en la imagen, lo que resulta adecuado para producir materiales promocionales.
3. Ajuste de la resolución
CogView4 admite la salida a cualquier resolución, por ejemplo, generando imágenes de 2048x2048:
image = pipe(prompt=prompt, width=2048, height=2048).images[0]
image.save("high_res.png")
Nota: Las resoluciones más altas requieren más memoria de vídeo y se recomienda una GPU con 24 GB o más de memoria de vídeo.
4. Manejo de tacos muy largos
CogView4 puede manejar descripciones complejas como:
prompt = "一个热闹的古代中国集市,摊位上摆满陶瓷和丝绸,远处有山峦和夕阳,人们穿着传统汉服在购物"
image = pipe(prompt=prompt, num_inference_steps=50).images[0]
image.save("market.png")
Admite hasta 1024 tokens, analiza completamente textos largos y genera imágenes detalladas.
5. Optimizar el rendimiento
Si la memoria de vídeo es insuficiente, ajuste los parámetros:
- inferior
torch_dtype
debido atorch.float16
- aumentando
num_inference_steps
para mejorar la calidad (por defecto 50, recomendado 50-100) - utilizar
pipe.enable_model_cpu_offload()
Trasladar algunos modelos al cálculo en CPU
Funciones destacadas
Generar imágenes bilingües
El soporte bilingüe de CogView4 es su mayor atractivo. Por ejemplo, introduce palabras clave mezcladas:
prompt = "A futuristic city with neon lights and flying cars, 写着‘未来之城’的标志"
image = pipe(prompt=prompt).images[0]
image.save("future_city.png")
La imagen resultante contendrá tanto la descripción en inglés de la ciudad futura como el logotipo chino de "Ciudad futura", lo que demuestra una gran comprensión semántica.
Control de detalles de alta calidad
Ajustando guidance_scale
(rango 1-10, por defecto 3,5), que controla hasta qué punto la imagen se ajusta a la pista. Cuanto mayor sea el valor, más se ajustará el detalle a la señal, pero puede sacrificar la creatividad:
image = pipe(prompt=prompt, guidance_scale=7.0).images[0]
Generación de lotes
Genera varias imágenes a la vez:
images = pipe(prompt=prompt, num_images_per_prompt=3).images
for i, img in enumerate(images):
img.save(f"output_{i}.png")
advertencia
- Requisitos de memoria VGAMemoria de vídeo: se necesitan aproximadamente 16 GB de memoria de vídeo para generar una imagen de 1024x1024, y más de 24 GB para 2048x2048.
- tiempo de inferencia: 50 pasos de razonamiento tardan entre 1 y 2 minutos (dependiendo del hardware).
- Apoyo comunitarioSi tienes problemas, pide ayuda en la página de problemas de GitHub o consulta el LÉAME oficial.
Con estos pasos, los usuarios pueden iniciarse rápidamente en CogView4, generar imágenes de alta calidad y aplicarlas a proyectos creativos.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...