CogView3: modelo de generación de imágenes por difusión de texto en cascada de código abierto de Wisdom Spectrum
Últimos recursos sobre IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial 9.8K 00
Introducción general
CogView3 es un avanzado sistema de generación de imágenes de texto desarrollado por la Universidad de Tsinghua y Think Tank Team (Chi Spectrum Qingyan). Se basa en el modelo de difusión en cascada y genera imágenes de alta resolución a través de múltiples etapas. Las características clave de CogView3 incluyen la generación en múltiples etapas, una arquitectura innovadora y un rendimiento eficiente, que son aplicables a muchos campos como la creación de arte, el diseño de anuncios, el desarrollo de juegos, etc.
Las capacidades de esta serie de modelos ya están en línea en "Chi Spectrum Clear Words" (chatglm.cn) y pueden experimentarse en Clear Words.


Arriba: Un coche de color rosa. Abajo: Una pila de 3 cubos. Un cubo rojo está arriba, sentado sobre otro cubo rojo. El cubo rojo está en medio, sentado sobre un cubo verde. El cubo verde está abajo.
Lista de funciones
- Generación en varias etapas: primero se generan imágenes de baja resolución y, a continuación, se aumenta gradualmente la resolución de la imagen mediante un proceso de difusión por relés, lo que da como resultado imágenes de alta resolución de hasta 2048x2048.
- Rendimiento eficiente: CogView3 reduce significativamente los costes de formación e inferencia a la vez que genera imágenes de alta calidad. En comparación con SDXL, el modelo de código abierto más avanzado, el tiempo de inferencia de CogView3 es solo una décima parte.
- Arquitectura innovadora: CogView3 introduce la última arquitectura DiT (Diffusion Transformer), que utiliza la programación de ruido de difusión Zero-SNR y combina mecanismos de atención conjunta texto-imagen para mejorar aún más el rendimiento general.
- Código abierto: El código y el modelo de CogView3 se han publicado en GitHub y los usuarios pueden descargarlos y utilizarlos libremente.
Utilizar la ayuda
Instalación y registro
- Visite el sitio web: Abra el sitio web oficial de CogView3. GitHub.
- Descarga del código: Haz clic en el botón "Código" de la página y selecciona "Descargar ZIP" para descargar el archivo del proyecto, o utiliza el comando git para descargarlo:
git<span> </span>clone<span> </span>https://github.com/THUDM/CogView3.git
. - Instalar dependencias: Asegúrese de que la biblioteca de difusores está instalada desde el código fuente:
pip install git+https://github.com/huggingface/diffusers.git
Proceso de utilización
- Optimización del taco :
- Aunque la familia de modelos CogView3 se entrena con descripciones largas de imágenes, recomendamos encarecidamente reescribir las claves mediante modelos de lenguaje amplio (LLM) antes de generar texto a imágenes, lo que mejorará significativamente la calidad de la generación.
- Ejecute el siguiente script para optimizar la consulta:
python prompt_optimize.py --api_key "Zhipu AI API Key"--prompt {your prompt} --base_url "https://open.bigmodel.cn/api/paas/v4"--model "glm-4-plus"
- Modelos de razonamiento (difusores) :
- En primer lugar, asegúrate de instalar la biblioteca de difusores desde el código fuente:
pip install git+https://github.com/huggingface/diffusers.git
- A continuación, ejecute el siguiente código:
fromdiffusers importCogView3PlusPipeline importtorch pipe = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda") pipe.enable_model_cpu_offload() pipe.vae.enable_slicing() pipe.vae.enable_tiling() prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background." image = pipe( prompt=prompt, guidance_scale=7.0, num_images_per_prompt=1, num_inference_steps=50, width=1024, height=1024, ).images[0] image.save("cogview3.png")
- En primer lugar, asegúrate de instalar la biblioteca de difusores desde el código fuente:
- Modelos de razonamiento (SAT) :
- Consulte el tutorial SAT para obtener instrucciones paso a paso sobre la inferencia de modelos.
problemas comunes
- Fallo de instalación: Asegúrese de que la versión de Python cumple los requisitos y preste atención a la compatibilidad de versiones cuando instale PyTorch.
- Calidad de la imagen : La especificidad de la descripción del texto y la riqueza del conjunto de datos de formación afectarán a los resultados de las imágenes generadas, por lo que se recomienda utilizar una descripción detallada del texto y diversos conjuntos de datos para la formación.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...