CogView3 : modèle d'image de génération de texte par diffusion en cascade de Wisdom Spectrum (open source)

Dernières ressources sur l'IAMise à jour il y a 11 mois Cercle de partage de l'IA

10.3K 00

Introduction générale

CogView3 est un système avancé de génération de texte par l'image développé par l'Université Tsinghua et Think Tank Team (Chi Spectrum Qingyan). Il est basé sur le modèle de diffusion en cascade et génère des images de haute résolution en plusieurs étapes. Il est basé sur le modèle de diffusion en cascade et génère des images haute résolution en plusieurs étapes. Les principales caractéristiques de CogView3 comprennent la génération en plusieurs étapes, une architecture innovante et des performances efficaces, qui sont applicables à de nombreux domaines tels que la création artistique, la conception de publicités, le développement de jeux, etc.

Les capacités de cette série de modèles sont désormais en ligne sur le site "Chi Spectrum Clear Words" (chatglm.cn) et peuvent être expérimentées sur Clear Words.

En haut : une voiture de couleur rose. En bas : une pile de 3 cubes. Le cube rouge est en haut, assis sur un cube rouge. Le cube rouge est au milieu, assis sur un cube vert. Le cube vert est en bas.

Liste des fonctions

Génération en plusieurs étapes : des images à faible résolution sont d'abord générées, puis la résolution de l'image est progressivement augmentée par un processus de diffusion relais, ce qui permet d'obtenir des images à haute résolution allant jusqu'à 2048x2048.
Performance efficace : CogView3 réduit considérablement les coûts de formation et d'inférence tout en générant des images de haute qualité. Comparé à SDXL, le modèle open source de pointe actuel, le temps d'inférence de CogView3 n'est que de 1/10e.
Architecture innovante : CogView3 présente la toute dernière architecture DiT (Diffusion Transformer), qui utilise la planification du bruit de diffusion Zero-SNR et combine des mécanismes d'attention conjointe texte-image afin d'améliorer encore les performances globales.
Code source ouvert : Le code et le modèle de CogView3 ont été ouverts sur GitHub et peuvent être librement téléchargés et utilisés par les utilisateurs.

Utiliser l'aide

Installation et enregistrement

Visiter le site web : Ouvrez le site web officiel de CogView3. GitHub.
Télécharger le code : Cliquez sur le bouton "Code" de la page et sélectionnez "Télécharger ZIP" pour télécharger le fichier du projet, ou utilisez la commande git pour le télécharger :git<span> </span>clone<span> </span>https://github.com/THUDM/CogView3.git.
Installer les dépendances : S'assurer que la bibliothèque diffusers est installée à partir des sources :

pip install git+https://github.com/huggingface/diffusers.git

Processus d'utilisation

Optimisation des signaux :
- Bien que la famille de modèles CogView3 soit entraînée avec de longues descriptions d'images, nous recommandons fortement de réécrire les indices à l'aide de grands modèles de langage (LLM) avant de générer du texte vers des images, ce qui améliorera considérablement la qualité de la génération.
- Exécutez le script suivant pour optimiser l'invite :
```
python prompt_optimize.py --api_key "Zhipu AI API Key"--prompt {your prompt} --base_url "https://open.bigmodel.cn/api/paas/v4"--model "glm-4-plus"
```

Modèles de raisonnement (diffuseurs) :

Tout d'abord, assurez-vous d'installer la bibliothèque de diffuseurs à partir des sources :
```
pip install git+https://github.com/huggingface/diffusers.git
```

Exécutez ensuite le code suivant :

fromdiffusers importCogView3PlusPipeline
importtorch

pipe = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda")
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."

image = pipe(
    prompt=prompt,
    guidance_scale=7.0,
    num_images_per_prompt=1,
    num_inference_steps=50,
    width=1024,
    height=1024,
).images[0]

image.save("cogview3.png")

Modèles de raisonnement (SAT) :
- Voir le didacticiel SAT pour des instructions pas à pas sur l'inférence de modèle.

problèmes courants

Échec de l'installation : assurez-vous que la version de Python répond aux exigences, et faites attention à la compatibilité des versions lors de l'installation de PyTorch.
Qualité de l'image : la spécificité de la description textuelle et la richesse de l'ensemble de données d'entraînement affecteront les résultats des images générées. Il est recommandé d'utiliser une description textuelle détaillée et des ensembles de données diversifiés pour l'entraînement.