Le modèle de génération d'images CogView4, annoncé comme open source !

Fusion de l'art chinois classique et d'éléments modernes, cette image s'inspire de l'œuvre de Wang Ximeng, peintre de la dynastie des Song du Nord, A Thousand Miles of Rivers and Mountains (Mille milles de rivières et de montagnes). L'image montre un magnifique rouleau de paysage, avec la technique du paysage vert qui donne des collines ondulantes et de vastes rivières, de riches couches de couleurs et des détails exquis. Au-dessus de ce paysage pittoresque, le caractère "CogView4" apparaît subtilement, avec une police de caractères forte et puissante, et l'encre est dans la bonne teinte, comme s'il s'agissait d'un coup de pinceau impromptu donné par un ancien lettré alors qu'il appréciait le paysage. Les mots "CogView4" complètent le paysage environnant, sans être ni trop abrupts ni trop harmonieux, mais plutôt en ajoutant un sentiment de dialogue à travers le temps et l'espace. L'ensemble de l'image a la saveur d'un paysage classique, mais incorpore également des éléments de technologie moderne, présentant une tension artistique unique, permettant aux gens d'apprécier l'esthétique traditionnelle tout en ressentant la collision et la fusion de la créativité moderne.
Aujourd'hui, nous avons officiellement publié et mis en open source notre dernier modèle de génération d'images, CogView4.
Le modèle possède de solides capacités d'alignement sémantique complexe et de suivi des commandes, prend en charge les entrées bilingues de longueur arbitraire, génère des images de résolution arbitraire dans une fourchette donnée et possède de solides capacités de génération de texte. Il s'agit également du premier modèle de génération d'images à être mis à disposition sous le protocole Apache 2.0.
I. Évaluation
DPG-Bench (Dense Prompt Graph Benchmark) est un test de référence permettant d'évaluer les modèles de génération de texte à partir d'images, en se concentrant sur les performances des modèles en termes d'alignement sémantique complexe et de capacités de suivi des instructions.
CogView4-6B, qui a le score global le plus élevé dans le benchmark DPG-Bench et atteint SOTA dans le modèle graphique open-source Vincennes.

II. longueur arbitraire et résolution arbitraire
Le modèle CogView4 met en œuvre un paradigme de formation hybride composé de descriptions textuelles de longueur arbitraire et d'images de résolution arbitraire.
1、Codage de la position de l'image
CogView4 utilise le 2D Rotational Position Encoding (2D RoPE) pour modéliser les informations de position d'une image et prend en charge les tâches de génération d'images à différentes résolutions en interpolant l'encodage positionnel.
2. la modélisation de la génération de diffusion
Le modèle est modélisé à l'aide d'un schéma de correspondance des flux pour la génération de la diffusion, combiné à une planification du bruit dynamique linéaire paramétrique pour répondre aux exigences du rapport signal/bruit des images de différentes résolutions.
3、Architecture design
En ce qui concerne l'architecture du modèle DiT, CogView4 reprend l'architecture Share-param DiT de son prédécesseur et conçoit des couches LayerNorm adaptatives distinctes pour les modalités texte et image afin d'obtenir une adaptation intermodale efficace.
4. formation en plusieurs étapes
CogView4 utilise une stratégie d'apprentissage en plusieurs étapes qui comprend l'apprentissage de la résolution de base, l'apprentissage de la résolution panoramique, l'ajustement des données de haute qualité et l'apprentissage de l'alignement des préférences humaines. Cette approche de formation par étapes couvre non seulement une large gamme de distributions d'images, mais garantit également que les images générées sont très esthétiques et alignées sur les préférences humaines.
5. optimisation du cadre de formation
D'un point de vue textuel, CogView4 dépasse les limites de la longueur fixe traditionnelle des jetons en autorisant des plafonds de jetons plus élevés et en réduisant de manière significative la redondance des jetons textuels pendant l'apprentissage. Lorsque la longueur moyenne de la légende d'apprentissage est comprise entre 200 et 300 jetons, CogView4 réduit la redondance des jetons d'environ 50% par rapport au schéma traditionnel avec 512 jetons fixes, et améliore l'efficacité de 5%-30% dans la phase d'apprentissage progressif du modèle.
Du point de vue de l'image, l'apprentissage par résolution mixte permet au modèle de prendre en charge la génération d'une résolution arbitraire sur une large plage, ce qui accroît considérablement la liberté de création. La résolution cible doit simplement satisfaire aux conditions suivantes :

Ces deux éléments peuvent considérablement accroître la liberté de création.
Exemple : histoire très longue (bande dessinée à quatre planches)

Princesse : une femme humaine, belle et élégante, vêtue d'un magnifique costume de princesse, emprisonnée dans l'antre d'un monstre.
Le roi : un homme humain, majestueux et bienveillant, vêtu d'un habit royal orné et assis sur le trône du royaume.
Dragon de flammes : un monstre couvert d'écailles ressemblant à des flammes, crachant des flammes et d'une taille gigantesque.
Seigneur des ténèbres : Monstre de taille gigantesque et enveloppé de ténèbres, il possède un grand pouvoir magique.
Scène 1 : Xiao Ming part en voyage
Créez une scène de style anime avec une magnifique cour de royaume en arrière-plan. Le personnage principal de la scène est Kotomine (un garçon humain au cœur courageux, tenant une épée et portant un simple costume de guerrier), qui est représenté dans une pose en train d'entreprendre un voyage. Les détails des fleurs dans la cour et du château au loin sont inclus, la lumière du soleil matinal exprimant la bravoure et la détermination. Qualité : chef-d'œuvre, meilleure qualité, super détaillé, 4k
Scène 2 : Ming vainc le dragon de flammes
Créez une scène de style anime avec un cratère enflammé en arrière-plan. Le personnage principal de la scène est Kotomine (un garçon humain au cœur courageux, tenant une épée et portant un simple costume de guerrier), qui est sur le point de remporter la victoire sur un dragon enflammé. Les détails des rochers et de la lave dans le cratère sont inclus, et l'éclairage rouge ardent évoque la férocité et le courage. Qualité : chef-d'œuvre, meilleure qualité, super détaillé, 4k
Scène 3 : Ming combat le Seigneur des Ténèbres !
Créez une scène de style animé avec un repaire de monstres en arrière-plan. Le personnage principal de la scène est Ming (un garçon humain au cœur courageux, une épée à la main et un simple costume de guerrier), qui est au milieu d'une bataille féroce contre le Seigneur des Ténèbres. Les détails de l'obscurité et de l'énergie magique de l'antre sont inclus, et l'éclairage lugubre transmet l'intensité et la tension. Qualité : chef-d'œuvre, meilleure qualité, super détaillé, 4k
Scène 4 : Ming sauve la princesse
Créez une scène de style anime avec l'intérieur d'un château déserté en arrière-plan. Les personnages principaux de la scène sont Ming (un garçon humain au cœur courageux, tenant une épée et portant un simple costume de guerrier) et la princesse (une femme humaine, belle et élégante, portant un magnifique costume de princesse), qui se trouvent dans la scène réconfortante où Ming sauve la princesse. Les détails des ruines intérieures du château et la lumière tamisée sont inclus, et la lumière douce transmet l'émotion et la rédemption. Qualité : chef-d'œuvre, meilleure qualité, super détaillé, 4k
C. Prise en charge du chinois et de l'anglais
En termes de mise en œuvre technique, CogView4 remplace le codeur de texte T5 exclusivement anglais par un codeur GLM-4 bilingue et est entraîné avec des paires de graphiques bilingues, de sorte que le modèle CogView4 est capable de saisir des mots guides bilingues.
Jusqu'à présent, CogView4 est le premier modèle graphique à source ouverte générant du texte et prenant en charge la saisie de mots repères bilingues. Il est particulièrement performant pour comprendre et suivre les repères chinois et pour générer des caractères chinois à l'écran. Ces deux caractéristiques conviennent mieux à un large éventail de besoins créatifs dans la publicité nationale, les vidéos courtes et d'autres domaines.

IV. protocole Apache
Le modèle CogView4-6B prend en charge le protocole Apache2.0, et ajoutera ultérieurement ControlNet, ComfyUI et d'autres supports écologiques, un ensemble complet d'outils de réglage fin sera bientôt disponible.
Modèle d'entrepôt :
https://huggingface.co/THUDM/CogView4-6B
https://modelscope.cn/models/ZhipuAI/CogView4-6B
mis à jour CogView4 Le modèle sera mis en ligne le 13 mars sur chatglm.cn.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...