CogView4 : un modèle graphique open source pour la génération d'images haute définition bilingues en chinois et en anglais
Introduction générale
CogView4 est un modèle texte-graphe open source développé par le KEG Lab (THUDM) de l'université de Tsinghua, qui se concentre sur la conversion de descriptions textuelles en images de haute qualité. Il prend en charge la saisie d'indices bilingues et est particulièrement performant pour comprendre les indices chinois et générer des images avec des caractères chinois, ce qui est idéal pour la conception de publicités, la création de courtes vidéos et d'autres scénarios. Premier modèle open-source à prendre en charge la génération de caractères chinois à l'écran, CogView4 excelle dans l'alignement sémantique complexe et le suivi des commandes. Il est basé sur l'encodeur de texte GLM-4-9B, prend en charge la saisie rapide de mots de toute longueur et peut générer des images d'une résolution allant jusqu'à 2048. Le projet est hébergé sur GitHub, avec un code et une documentation détaillés, et a attiré beaucoup d'attention et de participation de la part des développeurs et des créateurs.
Le dernier modèle de CogView4 sera mis en ligne le 13 mars un discours intellectuellement stimulant Site officiel.

Expérience en ligne : https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
Liste des fonctions
- Images de génération de mots repères bilinguesIl prend en charge les descriptions chinoises et anglaises, et peut comprendre et générer avec précision des images correspondant aux indices, les scènes chinoises étant particulièrement performantes.
- Génération d'écrans de caractères chinois: Génère un texte chinois clair dans les images, adapté à la création d'affiches, de publicités et d'autres travaux créatifs nécessitant un contenu textuel.
- Sortie de résolution arbitraireL'entreprise prend en charge la génération d'images de toutes tailles, de la basse résolution à 2048x2048, pour répondre à une grande variété de besoins.
- Support de mots repères extra-longsLe système accepte les entrées de texte de toute longueur et peut gérer jusqu'à 1024 jetons, ce qui facilite la description de scénarios complexes.
- Alignement sémantique complexeLe système d'information sur les images : Il capture avec précision les détails des mots cités et génère des images de haute qualité qui correspondent à la sémantique.
- Personnalisation de modèles open sourceLes développeurs peuvent les développer ou les optimiser en fonction de leurs besoins.
Utiliser l'aide
Processus d'installation
CogView4 est un projet open source basé sur Python qui nécessite un environnement configuré localement pour fonctionner. Voici les étapes détaillées de l'installation :
1. préparation à l'environnement
- système d'exploitationWindows, Linux ou macOS sont pris en charge.
- exigences en matière de matérielLes GPU NVIDIA (au moins 16 Go de mémoire vidéo) sont recommandés pour accélérer l'inférence ; les CPU peuvent également fonctionner, mais ils sont plus lents.
- dépendance logicielle: :
- Python 3.8 ou supérieur
- PyTorch (il est recommandé d'installer la version GPU, torch>=2.0)
- Git (pour le clonage de dépôts)
2. clonage d'entrepôts
Ouvrez un terminal et entrez la commande suivante pour télécharger le code source du projet CogView4 :
git clone https://github.com/THUDM/CogView4.git
cd CogView4
3. installation des dépendances
Le projet fournit le fichier requirements.txt, exécutez la commande suivante pour installer les bibliothèques requises :
pip install -r requirements.txt
Pour l'accélération GPU, assurez-vous d'installer la bonne version de PyTorch en vous référant au site officiel de PyTorch pour les commandes d'installation, par exemple :
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
4. téléchargement de modèles pré-entraînés
Le modèle CogView4-6B doit être téléchargé manuellement depuis Hugging Face ou le lien officiel. Visitez la page GitHub de THUDM pour trouver l'adresse de téléchargement du modèle (par ex. THUDM/CogView4-6B
), l'extraire dans le répertoire racine du projet dans le fichier checkpoints
dossier. Ou télécharger automatiquement par code :
from diffusers import CogView4Pipeline
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B")
5. environnement de configuration
Si la mémoire vidéo est limitée, activez les options d'optimisation de la mémoire (par ex. enable_model_cpu_offload
), comme décrit dans le mode d'emploi ci-dessous.
Comment utiliser CogView4
Après l'installation, les utilisateurs peuvent appeler CogView4 pour générer des images via un script Python. Voici la procédure détaillée :
1) Génération d'images de base
Créer un fichier Python (par ex. generate.py
), entrez le code suivant :
from diffusers import CogView4Pipeline
import torch
# 加载模型到 GPU
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")
# 优化显存使用
pipe.enable_model_cpu_offload() # 将部分计算移至 CPU
pipe.vae.enable_slicing() # 分片处理 VAE
pipe.vae.enable_tiling() # 分块处理 VAE
# 输入提示词
prompt = "一辆红色跑车停在阳光下的海边公路,背景是蔚蓝的海浪"
image = pipe(
prompt=prompt,
guidance_scale=3.5, # 控制生成图像与提示的贴合度
num_images_per_prompt=1, # 生成一张图像
num_inference_steps=50, # 推理步数,影响质量
width=1024, # 图像宽度
height=1024 # 图像高度
).images[0]
# 保存图像
image.save("output.png")
Exécutez le script :
python generate.py
Le résultat générera une image de 1024x1024 et l'enregistrera en tant que fichier output.png
.
2. génération d'images avec des caractères chinois
CogView4 permet de générer du texte chinois dans les images, par exemple :
prompt = "一张写有‘欢迎体验 CogView4’的广告海报,背景是蓝天白云"
image = pipe(prompt=prompt, width=1024, height=1024).images[0]
image.save("poster.png")
Après l'exécution, les mots "Welcome to CogView4" seront clairement affichés dans l'image, ce qui convient à la production de matériel promotionnel.
3) Adaptation de la résolution
CogView4 prend en charge la sortie à n'importe quelle résolution, par exemple en générant des images de 2048x2048 :
image = pipe(prompt=prompt, width=2048, height=2048).images[0]
image.save("high_res.png")
Remarque : les résolutions plus élevées nécessitent davantage de mémoire vidéo. Il est recommandé d'utiliser un GPU doté d'au moins 24 Go de mémoire vidéo.
4. traiter les signaux très longs
Le CogView4 peut traiter des descriptions complexes, par exemple :
prompt = "一个热闹的古代中国集市,摊位上摆满陶瓷和丝绸,远处有山峦和夕阳,人们穿着传统汉服在购物"
image = pipe(prompt=prompt, num_inference_steps=50).images[0]
image.save("market.png")
Prend en charge jusqu'à 1024 tokens, analyse entièrement les textes longs et génère des images détaillées.
5. optimiser les performances
Si la mémoire vidéo est insuffisante, ajustez les paramètres :
- inférieur
torch_dtype
en raison detorch.float16
- en augmentation
num_inference_steps
pour améliorer la qualité (par défaut 50, recommandé 50-100) - utiliser
pipe.enable_model_cpu_offload()
Déplacer certains modèles vers le calcul par l'unité centrale
Fonctions vedettes
Générer des images bilingues
Le support bilingue de CogView4 est son plus grand atout. Par exemple, entrez des mots de repère mixtes :
prompt = "A futuristic city with neon lights and flying cars, 写着‘未来之城’的标志"
image = pipe(prompt=prompt).images[0]
image.save("future_city.png")
L'image obtenue contiendra à la fois la description anglaise de la ville future et le logo chinois "Future City", ce qui témoigne d'une forte compréhension sémantique.
Contrôle des détails de haute qualité
En ajustant guidance_scale
(de 1 à 10, 3,5 par défaut), qui permet de contrôler le degré d'adéquation de l'image avec le repère. Plus la valeur est élevée, plus les détails correspondent à l'indice, mais cela peut nuire à la créativité :
image = pipe(prompt=prompt, guidance_scale=7.0).images[0]
Génération de lots
Générer plusieurs images à la fois :
images = pipe(prompt=prompt, num_images_per_prompt=3).images
for i, img in enumerate(images):
img.save(f"output_{i}.png")
mise en garde
- Mémoire VGA requiseLes images peuvent être générées à l'aide de la mémoire vidéo : environ 16 Go de mémoire vidéo sont nécessaires pour générer une image de 1024x1024, et plus de 24 Go pour 2048x2048.
- temps d'inférenceLa durée de l'opération est de 1 à 2 minutes (selon le matériel) pour 50 étapes de raisonnement.
- Soutien communautaireSi vous avez des problèmes, demandez de l'aide sur la page GitHub Issues, ou référez-vous au README officiel.
Grâce à ces étapes, les utilisateurs peuvent rapidement commencer à utiliser CogView4, générer des images de haute qualité et les appliquer à des projets créatifs !
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...