ConsisID : une carte de référence de portrait pour générer des vidéos cohérentes avec les caractères, une intégration multi-terminale rapide
Introduction complète ConsisID est un projet open source développé par le groupe de Yuan Rong à l'Université de Pékin, visant à réaliser une génération de texte-vidéo cohérente sur le plan de l'identité (IPT2V) grâce à des techniques de décomposition de fréquence. Le cœur du projet est un DiT (Diffusion Transfor...