CogView4: un modelo gráfico de código abierto para generar imágenes bilingües de alta definición en chino e inglés

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

54.1K 00

Introducción general

CogView4 es un modelo de conversión de texto a gráficos de código abierto desarrollado por el KEG Lab de la Universidad de Tsinghua (THUDM), centrado en la conversión de descripciones de texto en imágenes de alta calidad. Es compatible con la entrada de pistas bilingües, y es especialmente bueno en la comprensión de pistas chinas y la generación de imágenes con caracteres chinos, lo que resulta ideal para el diseño de anuncios, la creación de vídeos cortos y otros escenarios. CogView4 es el primer modelo de código abierto compatible con la generación de caracteres chinos en pantalla y destaca en la alineación semántica compleja y el seguimiento de comandos. Se basa en el codificador de texto GLM-4-9B, admite la introducción de palabras de cualquier longitud y puede generar imágenes de hasta 2048 de resolución. El proyecto está alojado en GitHub, con código y documentación detallados, y ha atraído mucha atención y participación de desarrolladores y creadores.

El último modelo de CogView4 estará disponible el 13 de marzo discurso intelectualmente estimulante Página web oficial.

Experiencia en línea: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

Lista de funciones

Imágenes bilingües de generación de palabras clave: Admite descripciones tanto en chino como en inglés, y es capaz de entender y generar con precisión imágenes que coincidan con las pistas, con un rendimiento especialmente bueno de las escenas chinas.
Generación en pantalla de caracteres chinos: Genera texto chino claro en imágenes, adecuado para hacer carteles, anuncios y otros trabajos creativos que requieran contenido de texto.
Salida de resolución arbitrariaLa empresa admite la generación de imágenes de cualquier tamaño, desde baja resolución hasta 2048x2048, para satisfacer una amplia variedad de necesidades.
Soporte para palabras clave extralargasEl sistema acepta entradas de texto de cualquier longitud y puede manejar hasta 1024 tokens, lo que facilita la descripción de escenarios complejos.
Alineación semántica complejaCapta con precisión los detalles de las palabras buscadas y genera imágenes de alta calidad que coinciden con la semántica.
Personalización de modelos de código abiertoSe proporciona el código completo y los modelos preentrenados, y los desarrolladores pueden desarrollarlos u optimizarlos según sus necesidades.

Utilizar la ayuda

Proceso de instalación

CogView4 es un proyecto de código abierto basado en Python que requiere un entorno configurado localmente para ejecutarse. A continuación se detallan los pasos de instalación:

1. Preparación medioambiental

sistema operativoCompatible con Windows, Linux y macOS.
requisitos de hardwareSe recomiendan las GPU NVIDIA (al menos 16 GB de memoria de vídeo) para acelerar la inferencia; las CPU también pueden funcionar, pero son más lentas.
dependencia del software::
- Python 3.8 o superior
- PyTorch (se recomienda instalar la versión para GPU, torch>=2.0)
- Git (para clonar repositorios)

2. Clonación de almacenes

Abra un terminal e introduzca el siguiente comando para descargar el código fuente del proyecto CogView4:

git clone https://github.com/THUDM/CogView4.git  
cd CogView4

3. Instalación de dependencias

El proyecto proporciona el archivo requirements.txt, ejecute el siguiente comando para instalar las bibliotecas necesarias:

pip install -r requirements.txt

Para la aceleración por GPU, asegúrate de instalar la versión correcta de PyTorch consultando, por ejemplo, el sitio oficial de PyTorch para los comandos de instalación:

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118

4. Descarga de modelos preentrenados

El modelo CogView4-6B debe descargarse manualmente de Hugging Face o del enlace oficial. Visite la página GitHub de THUDM para encontrar la dirección de descarga del modelo (p. ej. THUDM/CogView4-6B), extráigalo al directorio raíz del proyecto en la carpeta checkpoints carpeta. O descargar automáticamente por código:

from diffusers import CogView4Pipeline  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B")

5. Entorno de configuración

Si la memoria de vídeo es limitada, activa las opciones de optimización de memoria (por ejemplo. enable_model_cpu_offload), tal como se describe en las instrucciones de uso que figuran a continuación.

Cómo utilizar CogView4

Tras la instalación, los usuarios pueden llamar a CogView4 para generar imágenes mediante un script de Python. A continuación se detalla el procedimiento:

1. Generación de imágenes básicas

Cree un archivo Python (por ejemplo generate.py), introduzca el siguiente código:

from diffusers import CogView4Pipeline  
import torch  
# 加载模型到 GPU  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")  
# 优化显存使用  
pipe.enable_model_cpu_offload()  # 将部分计算移至 CPU  
pipe.vae.enable_slicing()        # 分片处理 VAE  
pipe.vae.enable_tiling()         # 分块处理 VAE  
# 输入提示词  
prompt = "一辆红色跑车停在阳光下的海边公路，背景是蔚蓝的海浪"  
image = pipe(  
prompt=prompt,  
guidance_scale=3.5,        # 控制生成图像与提示的贴合度  
num_images_per_prompt=1,   # 生成一张图像  
num_inference_steps=50,    # 推理步数，影响质量  
width=1024,                # 图像宽度  
height=1024                # 图像高度  
).images[0]  
# 保存图像  
image.save("output.png")

Ejecuta el script:

python generate.py

El resultado generará una imagen de 1024x1024 y la guardará como archivo output.png.

2. Generación de imágenes con caracteres chinos

CogView4 permite generar texto chino en imágenes, por ejemplo:

prompt = "一张写有‘欢迎体验 CogView4’的广告海报，背景是蓝天白云"  
image = pipe(prompt=prompt, width=1024, height=1024).images[0]  
image.save("poster.png")

Tras la ejecución, las palabras "Bienvenido a CogView4" aparecerán claramente en la imagen, lo que resulta adecuado para producir materiales promocionales.

3. Ajuste de la resolución

CogView4 admite la salida a cualquier resolución, por ejemplo, generando imágenes de 2048x2048:

image = pipe(prompt=prompt, width=2048, height=2048).images[0]  
image.save("high_res.png")

Nota: Las resoluciones más altas requieren más memoria de vídeo y se recomienda una GPU con 24 GB o más de memoria de vídeo.

4. Manejo de tacos muy largos

CogView4 puede manejar descripciones complejas como:

prompt = "一个热闹的古代中国集市，摊位上摆满陶瓷和丝绸，远处有山峦和夕阳，人们穿着传统汉服在购物"  
image = pipe(prompt=prompt, num_inference_steps=50).images[0]  
image.save("market.png")

Admite hasta 1024 tokens, analiza completamente textos largos y genera imágenes detalladas.

5. Optimizar el rendimiento

Si la memoria de vídeo es insuficiente, ajuste los parámetros:

inferior torch_dtype debido a torch.float16
aumentando num_inference_steps para mejorar la calidad (por defecto 50, recomendado 50-100)
utilizar pipe.enable_model_cpu_offload() Trasladar algunos modelos al cálculo en CPU

Funciones destacadas

Generar imágenes bilingües

El soporte bilingüe de CogView4 es su mayor atractivo. Por ejemplo, introduce palabras clave mezcladas:

prompt = "A futuristic city with neon lights and flying cars, 写着‘未来之城’的标志"  
image = pipe(prompt=prompt).images[0]  
image.save("future_city.png")

La imagen resultante contendrá tanto la descripción en inglés de la ciudad futura como el logotipo chino de "Ciudad futura", lo que demuestra una gran comprensión semántica.

Control de detalles de alta calidad

Ajustando guidance_scale(rango 1-10, por defecto 3,5), que controla hasta qué punto la imagen se ajusta a la pista. Cuanto mayor sea el valor, más se ajustará el detalle a la señal, pero puede sacrificar la creatividad:

image = pipe(prompt=prompt, guidance_scale=7.0).images[0]

Generación de lotes

Genera varias imágenes a la vez:

images = pipe(prompt=prompt, num_images_per_prompt=3).images  
for i, img in enumerate(images):  
img.save(f"output_{i}.png")

advertencia

Requisitos de memoria VGAMemoria de vídeo: se necesitan aproximadamente 16 GB de memoria de vídeo para generar una imagen de 1024x1024, y más de 24 GB para 2048x2048.
tiempo de inferencia: 50 pasos de razonamiento tardan entre 1 y 2 minutos (dependiendo del hardware).
Apoyo comunitarioSi tienes problemas, pide ayuda en la página de problemas de GitHub o consulta el LÉAME oficial.

Con estos pasos, los usuarios pueden iniciarse rápidamente en CogView4, generar imágenes de alta calidad y aplicarlas a proyectos creativos.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Herramienta de generación de imágenes de autodespliegue

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Sidekick CLI: una herramienta de código abierto para sustituir el código Claude

hace 11 meses

075.4K

Open Deep Research: generar investigación sobre IA a partir del contenido de las búsquedas web

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Generar un informe de investigación en profundidad

hace 12 meses

057.3K

Folk: utilizar la IA para optimizar la gestión de las relaciones con los clientes

Últimos recursos sobre IA # AI Marketing

hace 1 año

055.4K

Implementación de la api gratuita de hugging face en cloudflare para soportar el reenvío de interfaces

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Libre Modelo Grande API

hace 1 año

061.3K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

CogView4: un modelo gráfico de código abierto para generar imágenes bilingües de alta definición en chino e inglés

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

1. Preparación medioambiental

2. Clonación de almacenes

3. Instalación de dependencias

4. Descarga de modelos preentrenados

5. Entorno de configuración

Cómo utilizar CogView4

1. Generación de imágenes básicas

2. Generación de imágenes con caracteres chinos

3. Ajuste de la resolución

4. Manejo de tacos muy largos

5. Optimizar el rendimiento

Funciones destacadas

Generar imágenes bilingües

Control de detalles de alta calidad

Generación de lotes

advertencia

Vincent: Plugin VSCODE para el análisis de datos en Jupyter Notes

FaceSwapper: sitio web gratuito de intercambio de rostros con inteligencia artificial, intercambio de rostros de una o varias fotos y vídeos.

Artículos relacionados

Sidekick CLI: una herramienta de código abierto para sustituir el código Claude

Open Deep Research: generar investigación sobre IA a partir del contenido de las búsquedas web

Folk: utilizar la IA para optimizar la gestión de las relaciones con los clientes

Implementación de la api gratuita de hugging face en cloudflare para soportar el reenvío de interfaces

Sin comentarios

Últimas colecciones

Últimos artículos

CogView4: un modelo gráfico de código abierto para generar imágenes bilingües de alta definición en chino e inglés

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

1. Preparación medioambiental

2. Clonación de almacenes

3. Instalación de dependencias

4. Descarga de modelos preentrenados

5. Entorno de configuración

Cómo utilizar CogView4

1. Generación de imágenes básicas

2. Generación de imágenes con caracteres chinos

3. Ajuste de la resolución

4. Manejo de tacos muy largos

5. Optimizar el rendimiento

Funciones destacadas

Generar imágenes bilingües

Control de detalles de alta calidad

Generación de lotes

advertencia

Vincent: Plugin VSCODE para el análisis de datos en Jupyter Notes

FaceSwapper: sitio web gratuito de intercambio de rostros con inteligencia artificial, intercambio de rostros de una o varias fotos y vídeos.

Artículos relacionados

Sidekick CLI: una herramienta de código abierto para sustituir el código Claude

Open Deep Research: generar investigación sobre IA a partir del contenido de las búsquedas web

Folk: utilizar la IA para optimizar la gestión de las relaciones con los clientes

Implementación de la api gratuita de hugging face en cloudflare para soportar el reenvío de interfaces

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos