CogView4 : un modèle graphique open source pour la génération d'images haute définition bilingues en chinois et en anglais

Dernières ressources sur l'IAPosté il y a 7 mois Cercle de partage de l'IA

18.1K 00

Introduction générale

CogView4 est un modèle texte-graphe open source développé par le KEG Lab (THUDM) de l'université de Tsinghua, qui se concentre sur la conversion de descriptions textuelles en images de haute qualité. Il prend en charge la saisie d'indices bilingues et est particulièrement performant pour comprendre les indices chinois et générer des images avec des caractères chinois, ce qui est idéal pour la conception de publicités, la création de courtes vidéos et d'autres scénarios. Premier modèle open-source à prendre en charge la génération de caractères chinois à l'écran, CogView4 excelle dans l'alignement sémantique complexe et le suivi des commandes. Il est basé sur l'encodeur de texte GLM-4-9B, prend en charge la saisie rapide de mots de toute longueur et peut générer des images d'une résolution allant jusqu'à 2048. Le projet est hébergé sur GitHub, avec un code et une documentation détaillés, et a attiré beaucoup d'attention et de participation de la part des développeurs et des créateurs.

Le dernier modèle de CogView4 sera mis en ligne le 13 mars un discours intellectuellement stimulant Site officiel.

Expérience en ligne : https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

Liste des fonctions

Images de génération de mots repères bilinguesIl prend en charge les descriptions chinoises et anglaises, et peut comprendre et générer avec précision des images correspondant aux indices, les scènes chinoises étant particulièrement performantes.
Génération d'écrans de caractères chinois: Génère un texte chinois clair dans les images, adapté à la création d'affiches, de publicités et d'autres travaux créatifs nécessitant un contenu textuel.
Sortie de résolution arbitraireL'entreprise prend en charge la génération d'images de toutes tailles, de la basse résolution à 2048x2048, pour répondre à une grande variété de besoins.
Support de mots repères extra-longsLe système accepte les entrées de texte de toute longueur et peut gérer jusqu'à 1024 jetons, ce qui facilite la description de scénarios complexes.
Alignement sémantique complexeLe système d'information sur les images : Il capture avec précision les détails des mots cités et génère des images de haute qualité qui correspondent à la sémantique.
Personnalisation de modèles open sourceLes développeurs peuvent les développer ou les optimiser en fonction de leurs besoins.

Utiliser l'aide

Processus d'installation

CogView4 est un projet open source basé sur Python qui nécessite un environnement configuré localement pour fonctionner. Voici les étapes détaillées de l'installation :

1. préparation à l'environnement

système d'exploitationWindows, Linux ou macOS sont pris en charge.
exigences en matière de matérielLes GPU NVIDIA (au moins 16 Go de mémoire vidéo) sont recommandés pour accélérer l'inférence ; les CPU peuvent également fonctionner, mais ils sont plus lents.
dépendance logicielle: :
- Python 3.8 ou supérieur
- PyTorch (il est recommandé d'installer la version GPU, torch>=2.0)
- Git (pour le clonage de dépôts)

2. clonage d'entrepôts

Ouvrez un terminal et entrez la commande suivante pour télécharger le code source du projet CogView4 :

git clone https://github.com/THUDM/CogView4.git  
cd CogView4

3. installation des dépendances

Le projet fournit le fichier requirements.txt, exécutez la commande suivante pour installer les bibliothèques requises :

pip install -r requirements.txt

Pour l'accélération GPU, assurez-vous d'installer la bonne version de PyTorch en vous référant au site officiel de PyTorch pour les commandes d'installation, par exemple :

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118

4. téléchargement de modèles pré-entraînés

Le modèle CogView4-6B doit être téléchargé manuellement depuis Hugging Face ou le lien officiel. Visitez la page GitHub de THUDM pour trouver l'adresse de téléchargement du modèle (par ex. THUDM/CogView4-6B), l'extraire dans le répertoire racine du projet dans le fichier checkpoints dossier. Ou télécharger automatiquement par code :

from diffusers import CogView4Pipeline  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B")

5. environnement de configuration

Si la mémoire vidéo est limitée, activez les options d'optimisation de la mémoire (par ex. enable_model_cpu_offload), comme décrit dans le mode d'emploi ci-dessous.

Comment utiliser CogView4

Après l'installation, les utilisateurs peuvent appeler CogView4 pour générer des images via un script Python. Voici la procédure détaillée :

1) Génération d'images de base

Créer un fichier Python (par ex. generate.py), entrez le code suivant :

from diffusers import CogView4Pipeline  
import torch  
# 加载模型到 GPU  
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16).to("cuda")  
# 优化显存使用  
pipe.enable_model_cpu_offload()  # 将部分计算移至 CPU  
pipe.vae.enable_slicing()        # 分片处理 VAE  
pipe.vae.enable_tiling()         # 分块处理 VAE  
# 输入提示词  
prompt = "一辆红色跑车停在阳光下的海边公路，背景是蔚蓝的海浪"  
image = pipe(  
prompt=prompt,  
guidance_scale=3.5,        # 控制生成图像与提示的贴合度  
num_images_per_prompt=1,   # 生成一张图像  
num_inference_steps=50,    # 推理步数，影响质量  
width=1024,                # 图像宽度  
height=1024                # 图像高度  
).images[0]  
# 保存图像  
image.save("output.png")

Exécutez le script :

python generate.py

Le résultat générera une image de 1024x1024 et l'enregistrera en tant que fichier output.png.

2. génération d'images avec des caractères chinois

CogView4 permet de générer du texte chinois dans les images, par exemple :

prompt = "一张写有‘欢迎体验 CogView4’的广告海报，背景是蓝天白云"  
image = pipe(prompt=prompt, width=1024, height=1024).images[0]  
image.save("poster.png")

Après l'exécution, les mots "Welcome to CogView4" seront clairement affichés dans l'image, ce qui convient à la production de matériel promotionnel.

3) Adaptation de la résolution

CogView4 prend en charge la sortie à n'importe quelle résolution, par exemple en générant des images de 2048x2048 :

image = pipe(prompt=prompt, width=2048, height=2048).images[0]  
image.save("high_res.png")

Remarque : les résolutions plus élevées nécessitent davantage de mémoire vidéo. Il est recommandé d'utiliser un GPU doté d'au moins 24 Go de mémoire vidéo.

4. traiter les signaux très longs

Le CogView4 peut traiter des descriptions complexes, par exemple :

prompt = "一个热闹的古代中国集市，摊位上摆满陶瓷和丝绸，远处有山峦和夕阳，人们穿着传统汉服在购物"  
image = pipe(prompt=prompt, num_inference_steps=50).images[0]  
image.save("market.png")

Prend en charge jusqu'à 1024 tokens, analyse entièrement les textes longs et génère des images détaillées.

5. optimiser les performances

Si la mémoire vidéo est insuffisante, ajustez les paramètres :

inférieur torch_dtype en raison de torch.float16
en augmentation num_inference_steps pour améliorer la qualité (par défaut 50, recommandé 50-100)
utiliser pipe.enable_model_cpu_offload() Déplacer certains modèles vers le calcul par l'unité centrale

Fonctions vedettes

Générer des images bilingues

Le support bilingue de CogView4 est son plus grand atout. Par exemple, entrez des mots de repère mixtes :

prompt = "A futuristic city with neon lights and flying cars, 写着‘未来之城’的标志"  
image = pipe(prompt=prompt).images[0]  
image.save("future_city.png")

L'image obtenue contiendra à la fois la description anglaise de la ville future et le logo chinois "Future City", ce qui témoigne d'une forte compréhension sémantique.

Contrôle des détails de haute qualité

En ajustant guidance_scale(de 1 à 10, 3,5 par défaut), qui permet de contrôler le degré d'adéquation de l'image avec le repère. Plus la valeur est élevée, plus les détails correspondent à l'indice, mais cela peut nuire à la créativité :

image = pipe(prompt=prompt, guidance_scale=7.0).images[0]

Génération de lots

Générer plusieurs images à la fois :

images = pipe(prompt=prompt, num_images_per_prompt=3).images  
for i, img in enumerate(images):  
img.save(f"output_{i}.png")

mise en garde

Mémoire VGA requiseLes images peuvent être générées à l'aide de la mémoire vidéo : environ 16 Go de mémoire vidéo sont nécessaires pour générer une image de 1024x1024, et plus de 24 Go pour 2048x2048.
temps d'inférenceLa durée de l'opération est de 1 à 2 minutes (selon le matériel) pour 50 étapes de raisonnement.
Soutien communautaireSi vous avez des problèmes, demandez de l'aide sur la page GitHub Issues, ou référez-vous au README officiel.

Grâce à ces étapes, les utilisateurs peuvent rapidement commencer à utiliser CogView4, générer des images de haute qualité et les appliquer à des projets créatifs !

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

E2M : Conversion de plusieurs formats de fichiers en Markdown, pour une mise en forme uniforme des documents

Il y a 9 mois

021.2K

Hailuo 02 - MiniMax推出的AI视频生成模型，性能超越可灵和Veo 3

Hailuo 02 - MiniMax lance un modèle de génération de vidéos par IA qui surpasse Koring et Veo 3

Dernières ressources sur l'IA

Il y a 3 mois

014.9K

Flux Pro Art : un accès libre et sécurisé à toute la gamme des modèles de Flux Pro.

Dernières ressources sur l'IA # AI génération d'images en ligne

Il y a 11 mois

016.9K

InsCode : plateforme de programmation en ligne lancée par CSDN, environnement de développement en nuage IDE en ligne (non recommandé)

Dernières ressources sur l'IA # AI IDE

Il y a 9 mois

019.7K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

CogView4 : un modèle graphique open source pour la génération d'images haute définition bilingues en chinois et en anglais

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

1. préparation à l'environnement

2. clonage d'entrepôts

3. installation des dépendances

4. téléchargement de modèles pré-entraînés

5. environnement de configuration

Comment utiliser CogView4

1) Génération d'images de base

2. génération d'images avec des caractères chinois

3) Adaptation de la résolution

4. traiter les signaux très longs

5. optimiser les performances

Fonctions vedettes

Générer des images bilingues

Contrôle des détails de haute qualité

Génération de lots

mise en garde

Vincent : plugin VSCODE pour l'analyse de données dans les notes Jupyter

FaceSwapper : site gratuit d'échange de visages AI, échange de visages sur une ou plusieurs photos ou vidéos.

Articles connexes

E2M : Conversion de plusieurs formats de fichiers en Markdown, pour une mise en forme uniforme des documents

Hailuo 02 - MiniMax lance un modèle de génération de vidéos par IA qui surpasse Koring et Veo 3

Flux Pro Art : un accès libre et sécurisé à toute la gamme des modèles de Flux Pro.

InsCode : plateforme de programmation en ligne lancée par CSDN, environnement de développement en nuage IDE en ligne (non recommandé)

Pas de commentaires

Dernières collections

Derniers articles

CogView4 : un modèle graphique open source pour la génération d'images haute définition bilingues en chinois et en anglais

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

1. préparation à l'environnement

2. clonage d'entrepôts

3. installation des dépendances

4. téléchargement de modèles pré-entraînés

5. environnement de configuration

Comment utiliser CogView4

1) Génération d'images de base

2. génération d'images avec des caractères chinois

3) Adaptation de la résolution

4. traiter les signaux très longs

5. optimiser les performances

Fonctions vedettes

Générer des images bilingues

Contrôle des détails de haute qualité

Génération de lots

mise en garde

Vincent : plugin VSCODE pour l'analyse de données dans les notes Jupyter

FaceSwapper : site gratuit d'échange de visages AI, échange de visages sur une ou plusieurs photos ou vidéos.

Articles connexes

E2M : Conversion de plusieurs formats de fichiers en Markdown, pour une mise en forme uniforme des documents

Hailuo 02 - MiniMax lance un modèle de génération de vidéos par IA qui surpasse Koring et Veo 3

Flux Pro Art : un accès libre et sécurisé à toute la gamme des modèles de Flux Pro.

InsCode : plateforme de programmation en ligne lancée par CSDN, environnement de développement en nuage IDE en ligne (non recommandé)

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles