AI Personal Learning
und praktische Anleitung

StreamingT2V: Dynamische und skalierbare Generierung von Text zu langen Videos

Allgemeine Einführung

StreamingT2V ist ein öffentliches Projekt, das vom Picsart AI-Forschungsteam entwickelt wurde und sich auf die Erzeugung kohärenter, dynamischer und skalierbarer langer Videos auf der Grundlage von Textbeschreibungen konzentriert. Diese Technologie verwendet einen fortschrittlichen autoregressiven Ansatz, der ein zeitlich konsistentes Video garantiert, das eng mit dem Beschreibungstext übereinstimmt und eine hohe Bildqualität beibehält. Sie ist in der Lage, Videos mit einer Geschwindigkeit von bis zu 1200 fps und einer Länge von bis zu zwei Minuten zu generieren, wobei eine Skalierung auf längere Zeiträume möglich ist. Die Effektivität der Technik ist nicht durch ein bestimmtes Text2Video-Modell begrenzt, d. h. Verbesserungen des Modells werden die Videoqualität weiter verbessern.

StreamingT2V Online-Erfahrung


 

 

 

Funktionsliste

Unterstützt die Erstellung von Videos mit bis zu 1200 fps und einer Länge von bis zu zwei Minuten.
Bewahrt die zeitliche Konsistenz von Videos und Bildern mit hoher Bildqualität
Dynamische Videogenerierung, die eng mit der Textbeschreibung übereinstimmt
Unterstützung mehrerer Basismodell-Anwendungen zur Verbesserung der Qualität der erzeugten Videos
Unterstützung von Text-zu-Video- und Bild-zu-Video-Konvertierung
Online-Demo von Gradio bereitstellen

 

 

Hilfe verwenden

Klonen Sie das Projekt-Repository und installieren Sie die erforderliche Umgebung
Laden Sie die Gewichte herunter und ordnen Sie sie dem richtigen Katalog zu
Beispielcode für die Umwandlung von Text in Video oder von Bild in Video ausführen
Auf der Projektseite finden Sie detaillierte Ergebnisse und Demos

 

Inferenzzeit

 

ModelscopeT2V als Basismodell

 

Bildrate Schnellere Vorschau-Inferenzzeit (256×256) Berechnungszeit für das Endergebnis (720×720)
24 Rahmen 40 Sekunden. 165 Sekunden.
56 Rahmen 75 Sekunden 360 Sekunden
80 Rahmen 110 Sekunden. 525 Sekunden.
240 Bilder 340 Sekunden. 1610 Sekunden (etwa 27 Minuten)
600 Rahmen 860 Sekunden. 5128 Sekunden (etwa 85 Minuten)
1200 Bilder. 1710 Sekunden (etwa 28 Minuten) 10225 Sekunden (etwa 170 Minuten)
AnimateDiffals Basismodell

 

Bildrate Schnellere Vorschau-Inferenzzeit (256×256) Berechnungszeit für das Endergebnis (720×720)
24 Rahmen 50 Sekunden. 180 Sekunden.
56 Rahmen 85 Sekunden. 370 Sekunden.
80 Rahmen 120 Sekunden. 535 Sekunden.
240 Bilder 350 Sekunden. 1620 Sekunden (etwa 27 Minuten)
600 Rahmen 870 Sekunden. 5138 Sekunden (~85 Minuten)
1200 Bilder. 1720 Sekunden (etwa 28 Minuten) 10235 Sekunden (etwa 170 Minuten)
SVDAls Grundmodell

 

Bildrate Schnellere Vorschau-Inferenzzeit (256×256) Berechnungszeit für das Endergebnis (720×720)
24 Rahmen 80 Sekunden. 210 Sekunden.
56 Rahmen 115 Sekunden. 400 Sekunden.
80 Rahmen 150 Sekunden. 565 Sekunden.
240 Bilder 380 Sekunden. 1650 Sekunden (etwa 27 Minuten)
600 Rahmen 900 Sekunden. 5168 Sekunden (~86 Minuten)
1200 Bilder. 1750 Sekunden (ca. 29 Minuten) 10265 Sekunden (~171 Minuten)

Alle Messungen wurden mit dem NVIDIA A100 (80 GB) Grafikprozessor durchgeführt. Wenn die Anzahl der Frames 80 überstieg, wurde die Zufallsmischung verwendet. Bei der Zufallsmischung wurde diechunk_sizeund der Wert vonÜberlappung_Größesind auf 112 bzw. 32 festgelegt.

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " StreamingT2V: Dynamische und skalierbare Generierung von Text zu langen Videos

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)