CogView3: modelo de generación de imágenes por difusión de texto en cascada de código abierto de Wisdom Spectrum

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

36.5K 00

Introducción general

CogView3 es un avanzado sistema de generación de imágenes de texto desarrollado por la Universidad de Tsinghua y Think Tank Team (Chi Spectrum Qingyan). Se basa en el modelo de difusión en cascada y genera imágenes de alta resolución a través de múltiples etapas. Las características clave de CogView3 incluyen la generación en múltiples etapas, una arquitectura innovadora y un rendimiento eficiente, que son aplicables a muchos campos como la creación de arte, el diseño de anuncios, el desarrollo de juegos, etc.

Las capacidades de esta serie de modelos ya están en línea en "Chi Spectrum Clear Words" (chatglm.cn) y pueden experimentarse en Clear Words.

Arriba: Un coche de color rosa. Abajo: Una pila de 3 cubos. Un cubo rojo está arriba, sentado sobre otro cubo rojo. El cubo rojo está en medio, sentado sobre un cubo verde. El cubo verde está abajo.

Lista de funciones

Generación en varias etapas: primero se generan imágenes de baja resolución y, a continuación, se aumenta gradualmente la resolución de la imagen mediante un proceso de difusión por relés, lo que da como resultado imágenes de alta resolución de hasta 2048x2048.
Rendimiento eficiente: CogView3 reduce significativamente los costes de formación e inferencia a la vez que genera imágenes de alta calidad. En comparación con SDXL, el modelo de código abierto más avanzado, el tiempo de inferencia de CogView3 es solo una décima parte.
Arquitectura innovadora: CogView3 introduce la última arquitectura DiT (Diffusion Transformer), que utiliza la programación de ruido de difusión Zero-SNR y combina mecanismos de atención conjunta texto-imagen para mejorar aún más el rendimiento general.
Código abierto: El código y el modelo de CogView3 se han publicado en GitHub y los usuarios pueden descargarlos y utilizarlos libremente.

Utilizar la ayuda

Instalación y registro

Visite el sitio web: Abra el sitio web oficial de CogView3. GitHub.
Descarga del código: Haz clic en el botón "Código" de la página y selecciona "Descargar ZIP" para descargar el archivo del proyecto, o utiliza el comando git para descargarlo:git<span> </span>clone<span> </span>https://github.com/THUDM/CogView3.git.
Instalar dependencias: Asegúrese de que la biblioteca de difusores está instalada desde el código fuente:

pip install git+https://github.com/huggingface/diffusers.git

Proceso de utilización

Optimización del taco :
- Aunque la familia de modelos CogView3 se entrena con descripciones largas de imágenes, recomendamos encarecidamente reescribir las claves mediante modelos de lenguaje amplio (LLM) antes de generar texto a imágenes, lo que mejorará significativamente la calidad de la generación.
- Ejecute el siguiente script para optimizar la consulta:
```
python prompt_optimize.py --api_key "Zhipu AI API Key"--prompt {your prompt} --base_url "https://open.bigmodel.cn/api/paas/v4"--model "glm-4-plus"
```

Modelos de razonamiento (difusores) :

En primer lugar, asegúrate de instalar la biblioteca de difusores desde el código fuente:
```
pip install git+https://github.com/huggingface/diffusers.git
```

A continuación, ejecute el siguiente código:

fromdiffusers importCogView3PlusPipeline
importtorch

pipe = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda")
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."

image = pipe(
    prompt=prompt,
    guidance_scale=7.0,
    num_images_per_prompt=1,
    num_inference_steps=50,
    width=1024,
    height=1024,
).images[0]

image.save("cogview3.png")

Modelos de razonamiento (SAT) :
- Consulte el tutorial SAT para obtener instrucciones paso a paso sobre la inferencia de modelos.

problemas comunes

Fallo de instalación: Asegúrese de que la versión de Python cumple los requisitos y preste atención a la compatibilidad de versiones cuando instale PyTorch.
Calidad de la imagen : La especificidad de la descripción del texto y la riqueza del conjunto de datos de formación afectarán a los resultados de las imágenes generadas, por lo que se recomienda utilizar una descripción detallada del texto y diversos conjuntos de datos para la formación.

Últimos recursos sobre IA # AI generación de imágenes en línea # AI Java Proyecto de código abierto

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

RoboCOIN - Un conjunto de datos de robots reales de doble brazo de código abierto creado por Wisdom Source en colaboración con varias universidades.

Últimos recursos sobre IA

hace 1 mes

011.4K

Superads: la herramienta gratuita de análisis creativo por IA para aumentar el rendimiento de los anuncios en los medios colocados

Últimos recursos sobre IA # AI Marketing

hace 1 año

048.8K

Agregador: plataforma única de rastreo y agregación de agentes, fondo común de agentes gratuitos (utilícelo de forma respetuosa).

Últimos recursos sobre IA # AI Java Proyecto de código abierto

hace 1 año

040.2K

Little Fox AI: despliegue su propia plataforma de creación de contenidos de inteligencia artificial para obtener ingresos (licencias de pago)

Últimos recursos sobre IA # AI Side Hustle Proyecto para ganar dinero # AI Aplicación de chat localizada

hace 1 año

037.7K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

CogView3: modelo de generación de imágenes por difusión de texto en cascada de código abierto de Wisdom Spectrum

Introducción general

Lista de funciones