StreamingT2V : Génération dynamique et évolutive de textes vers des vidéos longues

Dernières ressources sur l'IAMise à jour il y a 10 mois Cercle de partage de l'IA

18.6K 00

Introduction générale

StreamingT2V est un projet public développé par l'équipe de recherche en IA de Picsart, qui vise à générer des vidéos longues cohérentes, dynamiques et évolutives à partir de descriptions textuelles. Cette technologie utilise une approche autorégressive avancée qui garantit une vidéo temporellement cohérente qui correspond étroitement au texte de la description et maintient une image de haute qualité. Elle est capable de générer des vidéos allant jusqu'à 1 200 images par seconde et d'une durée maximale de deux minutes, avec la possibilité de les étendre à des périodes plus longues. L'efficacité de la technique n'est pas limitée par un modèle Text2Video spécifique, c'est-à-dire que les améliorations apportées au modèle permettront d'améliorer encore la qualité de la vidéo.

StreamingT2V Expérience en ligne

Liste des fonctions

Il permet de générer des vidéos jusqu'à 1200 images par seconde et d'une durée maximale de deux minutes.
Maintien de la cohérence temporelle de la vidéo et des images de haute qualité
Génération dynamique de vidéos correspondant étroitement à la description du texte
Prise en charge de plusieurs applications du modèle de base pour améliorer la qualité des vidéos générées
Prise en charge de la conversion texte-vidéo et image-vidéo
Démonstration en ligne de Gradio

Utiliser l'aide

Cloner le dépôt de projet et installer l'environnement requis
Télécharger les poids et les placer dans le catalogue approprié
Exécuter un exemple de code pour la conversion de texte en vidéo ou d'image en vidéo
Consultez la page du projet pour obtenir des résultats détaillés et des démonstrations.

temps d'inférence

ModelscopeT2V comme modèle de base

taux de rafraîchissement	Temps d'inférence de l'aperçu plus rapide (256×256)	Temps de raisonnement pour le résultat final (720×720)
24 cadres	40 secondes.	165 secondes.
56 cadres	75 secondes	360 secondes
80 cadres	110 secondes.	525 secondes.
240 cadres	340 secondes.	1610 secondes (environ 27 minutes)
600 cadres	860 secondes.	5128 secondes (environ 85 minutes)
1200 cadres.	1710 secondes (environ 28 minutes)	10225 secondes (environ 170 minutes)

AnimerDiffcomme modèle de base

taux de rafraîchissement	Temps d'inférence de l'aperçu plus rapide (256×256)	Temps de raisonnement pour le résultat final (720×720)
24 cadres	50 secondes.	180 secondes.
56 cadres	85 secondes.	370 secondes.
80 cadres	120 secondes.	535 secondes.
240 cadres	350 secondes.	1620 secondes (environ 27 minutes)
600 cadres	870 secondes.	5138 secondes (~85 minutes)
1200 cadres.	1720 secondes (environ 28 minutes)	10235 secondes (environ 170 minutes)

SVDComme modèle de base

taux de rafraîchissement	Temps d'inférence de l'aperçu plus rapide (256×256)	Temps de raisonnement pour le résultat final (720×720)
24 cadres	80 secondes.	210 secondes.
56 cadres	115 secondes.	400 secondes.
80 cadres	150 secondes.	565 secondes.
240 cadres	380 secondes.	1650 secondes (environ 27 minutes)
600 cadres	900 secondes.	5168 secondes (~86 minutes)
1200 cadres.	1750 secondes (environ 29 minutes)	10265 secondes (~171 minutes)

Toutes les mesures ont été prises en utilisant le GPU NVIDIA A100 (80 GB). Lorsque le nombre d'images dépassait 80, un mélange aléatoire était utilisé. Pour le mélange aléatoire, lachunk_sizeet la valeur deoverlap_sizesont fixés respectivement à 112 et 32.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

PraisonAI : Un cadre de travail Low-Code Multi-Intelligent Body pour simplifier les solutions d'automatisation des tâches complexes

Dernières ressources sur l'IA # AI Java Open Source Projecct # Cadre de développement de l'organisme intelligent

Il y a 7 mois

018.1K

CodeGPT : AI Assistant for Developers, offre de multiples assistants de programmation d'IA pour l'intégration dans les flux de travail existants

Dernières ressources sur l'IA # Programmation AI

Il y a 10 mois

018.1K

XAnswer : moteur de recherche intelligent avec réponses instantanées et cartes heuristiques

Dernières ressources sur l'IA # AI outil de recherche

Il y a 11 mois

019.3K

Dify-Plus : un système de gestion sur site pour Dify

Dernières ressources sur l'IA # AI Java Open Source Projecct

Il y a 6 mois

020.2K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

StreamingT2V : Génération dynamique et évolutive de textes vers des vidéos longues

Introduction générale

Liste des fonctions