Originaltext:Videogenerierungsmodelle als Weltsimulatoren
Wir arbeiten am groß angelegten Training generativer Modelle auf Videodaten. Insbesondere trainieren wir gemeinsam textbedingte diffusionsbasierte Modelle für Videos und Bilder mit unterschiedlichen zeitlichen Längen, Auflösungen und Seitenverhältnissen. Wir verwenden eine Transformer-Architektur, die in der Lage ist, räumlich-zeitliche Segmente zu verarbeiten, die in Videos und Bildern kodiert sein können. Unser größtes Modell, Sora, erzeugt qualitativ hochwertige einminütige Videos. Unsere Forschung zeigt, dass die Skalierung von Modellen zur Videogenerierung ein vielversprechender Schritt hin zur Entwicklung von Allzweckwerkzeugen ist, die die physische Welt modellieren können.
Dieser technische Bericht konzentriert sich auf zwei Hauptaspekte: (1) wie wir verschiedene Arten von visuellen Daten in eine einheitliche Darstellung umgewandelt haben, die das Training von generativen Modellen in großem Maßstab ermöglicht, und (2) eine qualitative Bewertung der Fähigkeiten und Grenzen des Sora-Modells. Der Bericht enthält keine detaillierten Informationen über das Modell und die Implementierung.
Viele frühere Studien haben die Modellierung von Videodaten mit generativen Modellen unter Verwendung einer Vielzahl von Ansätzen untersucht, darunter rekurrente Netze 1,2,3, generative adversarische Netze 4,5,6,7, autoregressive Transformatoren 8,9 und Diffusionsmodelle 10,11,12 Diese Studien haben sich in der Regel auf bestimmte Klassen visueller Daten, kürzere Videos oder Videos fester Größe konzentriert. ein Modell für die verallgemeinerte Modellierung visueller Daten, das in der Lage ist, Videos und Bilder verschiedener Dauer, Seitenverhältnisse und Auflösungen bis hin zu einer Minute HD-Video zu erzeugen.
Innovative Umwandlung von visuellen Daten: Patching-Techniken
Inspiriert durch den Erfolg großer Sprachmodelle (LLMs) bei der Verarbeitung von Internetdaten und der Entwicklung von Allround-Fähigkeiten13,14 haben wir untersucht, wie ähnliche Vorteile auf generative Modelle für visuelle Daten angewendet werden können. Das Large Language Model wurde entwickelt unter Verwendung von Token -- ein effizienter Weg zur Vereinheitlichung der Verarbeitung von Code, Mathematik und mehreren natürlichen Sprachen -- ermöglicht nahtlose intermodale Übergänge. In dieser Studie führen wir ein Gegenstück im visuellen Bereich ein: visuellePatch(Patches). Es hat sich gezeigt, dass Patches eine effiziente Form der Darstellung visueller Daten sind,15,16,17,18 und dass sie die Fähigkeit generativer Modelle zur Verarbeitung unterschiedlicher Video- und Bilddaten erheblich verbessern können.
Konkret erreichen wir die Umwandlung von Video in Patches, indem wir die Videodaten zunächst in einen niedrigdimensionalen potenziellen Raum19 komprimieren und sie dann in räumlich-zeitliche Patches zerlegen.
Videokompressionsnetzwerk
Wir haben eine Technik zur Dimensionalitätsreduzierung20 entwickelt, die in der Lage ist, Videorohdaten zu verarbeiten und latente Darstellungen zu erzeugen, die sowohl zeitlich als auch räumlich komprimiert sind.Sora wird in diesem komprimierten latenten Raum trainiert und ist in der Lage, neue Videoinhalte zu erzeugen. Darüber hinaus haben wir einen Decoder entwickelt, der diese latenten Repräsentationen in Videobilder auf Pixelebene reduzieren kann.
Time-Patch-Technik
Durch die Verarbeitung des komprimierten Videoinputs sind wir in der Lage, eine Reihe von räumlich-zeitlichen Patches zu extrahieren, die eine ähnliche Rolle wie Transformer Tokens in dem Modell spielen. Es ist erwähnenswert, dass dieses Schema auch auf die Bildverarbeitung anwendbar ist, da ein Bild im Wesentlichen als ein Einzelbild eines Videos betrachtet werden kann. Durch die Verwendung einer patch-basierten Repräsentation ist Sora in der Lage, sich an Videos und Bilder mit unterschiedlichen Auflösungen, Laufzeiten und Seitenverhältnissen anzupassen. Bei der Erzeugung neuer Videoinhalte können wir die Größe und Form des endgültigen Videos steuern, indem wir diese zufällig initialisierten Patches in einem Raster der gewünschten Größe anordnen.
Transformator-Erweiterung für die Videoerzeugung
Sora ist ein Diffusionsmodell21,22,23,24,25 ; es ist in der Lage, verrauschte Bildteile (und bedingte Informationen wie z. B. textuelle Hinweise) als Eingabe zu akzeptieren und wird darauf trainiert, die ursprünglichen "klaren" Bildteile vorherzusagen. Es ist erwähnenswert, dass Sora ein diffuser Transformer ist, und die Transformer-Technologie hat in einer Reihe von Bereichen wie Sprachmodellierung13,14 , Computer Vision15,16,17,18 und Bilderzeugung27,28,29 hervorragende Skalierbarkeit bewiesen.
In dieser Studie stellen wir fest, dass der diffusionsbasierte Transformer auch im Bereich der Videomodellierung effizient skaliert. Im folgenden Abschnitt zeigen wir die signifikante Verbesserung der Probenqualität, die durch die Erhöhung der Trainingsressourcen erreicht wird, indem wir Videoproben unter festen Start- und Eingabebedingungen während des Trainings vergleichen.
Unterschiedliche Videodauer, Auflösung und Seitenverhältnis
Bei herkömmlichen Bild- und Videoerstellungsmethoden werden Videos in der Regel auf Standardgrößen verkleinert, z. B. 4-Sekunden-Videos mit einer Auflösung von 256x256. Wir haben festgestellt, dass das Training direkt an der Originalgröße des Videos mehrere Vorteile bietet.
Flexible Stichprobenmöglichkeiten
Sora ist in der Lage, Videos in einer Vielzahl von Größen zu produzieren, einschließlich 1920x1080p für Widescreen, 1080x1920 für Portrait und alles dazwischen. So kann Sora direkt Inhalte für verschiedene Geräte produzieren, die deren nativen Seitenverhältnissen entsprechen. Außerdem können wir so schnell einen Prototyp für Inhalte in niedrigeren Größen erstellen, bevor wir Inhalte in voller Auflösung generieren - und das alles mit demselben Modell.
Optimierung der Zusammensetzung und des Layouts
Unsere Experimente zeigen, dass das Training auf dem nativen Seitenverhältnis eines Videos die Kompositions- und Layoutqualität des Videos deutlich verbessert. Wir haben Sora mit einem anderen Trainingsmodell verglichen, das alle Trainingsvideos auf Quadrate beschneidet, was die übliche Praxis beim Training generativer Modelle ist. Das von Sora generierte Video (rechte Seite) zeigt bessere Kompositionsergebnisse als das auf ein Quadrat zugeschnittene Modell (linke Seite), bei dem das Motiv manchmal nur teilweise zu sehen ist. Sora hingegen ist besser in der Lage, die gesamte Szene zu erfassen.
Sprachverständnis
Um Systeme zu entwickeln, die Videos aus Text generieren können, benötigen wir eine große Anzahl von Videos und die entsprechenden Textbeschreibungen. Wir haben eine in DALL-E 330 eingeführte Technik zur Neuetikettierung verwendet und auf die Videos angewandt. Zunächst trainierten wir ein Modell, das in der Lage ist, detaillierte Beschreibungen zu generieren, und verwendeten dieses Modell dann, um Textbeschreibungen für alle Videos im Trainingssatz zu erstellen. Wir haben festgestellt, dass das Training mit hochgradig beschreibenden Videobeschreibungen nicht nur die Genauigkeit des Textes, sondern auch die Gesamtqualität der Videos deutlich verbessert.
Wie bei DALL-E 3 verwenden wir auch hier GPT, um kurze Benutzereingaben in detaillierte Anweisungen umzuwandeln, die dann an das Videogenerierungsmodell gesendet werden. Mit diesem Verfahren kann Sora auf der Grundlage der Benutzeranweisungen hochwertige Videos produzieren.
Beispiele für Sprachverständnisfähigkeiten (zum Vergrößern anklicken)
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- ein-angenehmer-spaziergang-in-mumbai-indien-bei-schönem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- ein-angenehmer-spaziergang-in-mumbai-indien-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- ein-angenehmer-spaziergang-in-mumbai-indien-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- ein-angenehmer-spaziergang-in-johannesburg-suedafrika-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- ein-angenehmer-spaziergang-in-johannesburg-suedafrika-waehrend-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- ein-angenehmer-spaziergang-in-johannesburg-suedafrika-waehrend-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- ein-angenehmer-spaziergang-in-antarktis-bei-schönem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- ein-angenehmer-spaziergang-in-antarktis-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- ein-angenehmer-spaziergang-in-antarktis-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-mumbai-indien-bei-schönem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-mumbai-indien-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-mumbai-indien-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-johannesburg-suedafrika-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-johannesburg-suedafrika-waehrend-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-johannesburg-suedafrika-waehrend-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-antarktis-bei-schönem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-antarktis-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-antarktis-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -spaziergang-in-mumbai-indien-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -spaziergang-in-mumbai-indien-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -spaziergang-in-mumbai-indien-bei-einem-farbenfrohen-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -spaziergang-in-johannesburg-suedafrika-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -spaziergang-in-johannesburg-suedafrika-waehrend-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -spaziergang-in-johannesburg-suedafrika-bei-einem-farbenfrohen-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -spaziergang-in-der-antarktis-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -spaziergang-in-der-antarktis-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -spaziergang-in-antarktis-bei-einem-bunten-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-schönen-spaziergang-in-mumbai-indien-bei-schönem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-angenehmen-spaziergang-in-mumbai-indien-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- hemd-nehmen-einen-angenehmen-bummel-in-mumbai-indien-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-schönen-spaziergang-in-johannesburg-suedafrika-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- hemdsärmeliger-spaziergang-in-johannesburg-suedafrika-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-angenehmen-spaziergang-in-Johannesburg-Südafrika-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-schönen-spaziergang-in-antarktis-bei-schönem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-angenehmen-spaziergang-in-antarktis-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-angenehmen-spaziergang-in-antarktis-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-mumbai-indien-bei-schönem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-mumbai-indien-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-mumbai-indien-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-johannesburg-suedafrika-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-johannesburg-suedafrika-waehrend-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-johannesburg-suedafrika-waehrend-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-antarktis-bei-schönem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-antarktis-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-antarktis-während-eines-farbenfrohen-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-mumbai-indien-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-mumbai-indien-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- stiefel-ein-angenehmer-spaziergang-in-mumbai-indien-bei-einem-bunten-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-johannesburg-suedafrika-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-johannesburg-suedafrika-waehrend-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- stiefel-ein-angenehmer-spaziergang-in-johannesburg-suedafrika-bei-einem-bunten-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-antarktis-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-antarktis-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-antarktis-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-schönen-spaziergang-in-mumbai-indien-bei-schönem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-angenehmen-spaziergang-in-mumbai-indien-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- hemd-nehmen-einen-angenehmen-bummel-in-mumbai-indien-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-schönen-spaziergang-in-johannesburg-suedafrika-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- hemdsärmeliger-spaziergang-in-johannesburg-suedafrika-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-angenehmen-spaziergang-in-johannesburg-suedafrika-waehrend-eines-farbenfrohen-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-schönen-spaziergang-in-antarktis-bei-schönem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-angenehmen-spaziergang-in-antarktis-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- hemd-auf-einem-angenehmen-spaziergang-in-antarktis-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-mumbai-indien-bei-schönem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-mumbai-indien-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-mumbai-indien-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-johannesburg-suedafrika-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-johannesburg-suedafrika-waehrend-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-johannesburg-suedafrika-waehrend-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-antarktis-bei-schönem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-antarktis-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- ein-angenehmer-spaziergang-in-antarktis-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-mumbai-indien-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-mumbai-indien-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- stiefel-ein-angenehmer-spaziergang-in-mumbai-indien-bei-einem-bunten-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-johannesburg-suedafrika-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-johannesburg-suedafrika-waehrend-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- stiefel-ein-angenehmer-spaziergang-in-johannesburg-suedafrika-bei-einem-bunten-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-antarktis-bei-schoenem-sonnenuntergang.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-antarktis-während-eines-wintersturms.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- stiefel-auf-einem-angenehmen-spaziergang-in-antarktis-während-eines-bunten-festivals.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- weißes-hemd-auf-einem-angenehmen-spaziergang-in-mumbai-indien-bei-einem-bunten-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
Cue-Funktion für Bilder und Videos
Alle Beispiele und Videos, die auf unserer Website gezeigt werden, sind aus Text konvertiert. Sora kann jedoch auch Bilder oder vorhandene Videos als Eingabe akzeptieren. Mit dieser Funktion kann Sora eine Vielzahl von Bild- und Videobearbeitungsaufgaben durchführen, wie z. B. die Erstellung von Videos mit nahtlosen Schleifen, die Animation von Standbildern, die Verlängerung der Abspielzeit von Videos und vieles mehr.
Die DALL-E-Bilder bewegen sich
Mit nur einem Bild und einer Eingabeaufforderung kann Sora Videos erstellen. Einige Beispiele für Videos, die auf der Grundlage von DALL-E 231- und DALL-E 330-Bildern erstellt wurden, werden unten gezeigt.
Video Zeitdehnung
Sora ist auch in der Lage, Videos vorwärts oder rückwärts zu verlängern. Im Folgenden finden Sie vier Videos, die alle mit einem generierten Videoclip beginnen und rückwärts ablaufen. Obwohl diese vier Videos unterschiedliche Anfänge haben, laufen sie alle am gleichen Ende zusammen.
Mit dieser Technik konnten wir das Video vorwärts oder rückwärts erweitern und so den perfekten Endlosschleifen-Effekt erzeugen.
Innovative Video-zu-Video-Bearbeitung
Die Diffusionsmodellierung eröffnet neue Horizonte für die Bild- und Videobearbeitung auf der Grundlage von textlichen Hinweisen. Als Nächstes wendeten wir sie auf Sora an und nutzten eine dieser Innovationen, SDEdit,32 eine Technologie, die Sora in die Lage versetzt, den Stil und die Umgebung eines Videos ohne vorherige Beispiele zu ändern. Diese Technologie ermöglicht es Sora, den Stil und die Umgebung eines Videos ohne vorherige Beispiele zu ändern.
Fließende Übergänge zwischen Videos
Wir können Sora auch verwenden, um zwei sehr unterschiedliche Videos nahtlos miteinander zu verbinden, so dass sie natürlich ineinander übergehen, als wären sie eins. Im folgenden Beispiel sehen Sie, dass das Video in der Mitte auf subtile Weise Elemente aus dem linken und dem rechten Video miteinander vermischt.
Die magische Schaffung von Bildern
Die Fähigkeit von Sora, atemberaubende Bilder zu erzeugen, ist nicht auf Videos beschränkt. Diese Magie erreichen wir durch die Anordnung von Gauß'schen Rauschblöcken in einem räumlichen Raster, das nur ein Bild lang ist. Auf diese Weise ist Sora in der Lage, Bilder aller Größen zu erstellen, bis zu einer maximalen Auflösung von 2048x2048.
Ein Nahaufnahmeporträt einer Dame an einem Herbsttag mit erstaunlichem Detailreichtum und erstaunlich geringer Schärfentiefe.
Ein lebhaftes Korallenriff mit farbenfrohen Fischen und Meeresbewohnern, die sich in und aus dem Wasser bewegen.
Das digitale Kunstwerk eines jungen Tigers unter einem Apfelbaum zeigt die detaillierte Schönheit im Stil der Matte Painting.
Ein verschneites Bergdorf, gemütliche Hütten und das Nordlicht entfalten sich in exquisiter Detailtreue, als wäre es mit einer DSLR mit einem 50mm f/1.2 Objektiv aufgenommen worden.
Aufkommende Simulationsmöglichkeiten
Wir haben festgestellt, dass das Videomodell bei umfangreichem Training eine überzeugende Reihe von neuen Fähigkeiten aufweist. Diese Fähigkeiten verleihen Sora die Fähigkeit, Menschen, Tiere und Umgebungen der realen Welt bis zu einem gewissen Grad zu simulieren. Solche sich entwickelnden Fähigkeiten erfordern keine spezielle, vorher festgelegte Vorliebe für 3D-Raum, Objekte usw. - sie sind lediglich das Ergebnis der Skalierung der Daten.
Dreidimensionale räumliche Kohärenz. Sora erzeugt Videos mit dynamischen Perspektivwechseln. Wenn sich Kameraposition und -winkel ändern, können sich die Figuren und Szenenelemente im Video kohärent im dreidimensionalen Raum bewegen.
Langfristige Kontinuität und Objektpersistenz. Die Aufrechterhaltung der zeitlichen Kontinuität bei der Erstellung langer Videos war eine Herausforderung. Wir haben festgestellt, dass Sora in der Regel in der Lage ist, sowohl kurzfristige als auch langfristige Abhängigkeiten effektiv zu handhaben. So ist unser Modell beispielsweise in der Lage, die kontinuierliche Präsenz von Figuren, Tieren oder Objekten aufrechtzuerhalten, selbst wenn diese verdeckt oder aus dem Bild bewegt werden. Ebenso ist es in der Lage, ein und dieselbe Figur mehrmals im selben Video zu zeigen und ihr Erscheinen durchgehend zu gewährleisten.
Interaktion mit der Welt. Sora kann manchmal ein Verhalten simulieren, das einfach den Zustand der Welt beeinflusst. Zum Beispiel bleiben die Pinselstriche, die ein Maler auf einer Leinwand hinterlässt, über die Zeit bestehen, oder die Bisswunden, die jemand beim Essen eines Burgers hinterlässt.
Analog zur digitalen Welt. Sora kann auch digitale Prozesse wie Videospiele simulieren. Sie kann die Spielwelt und ihre Dynamik in hoher Qualität darstellen und gleichzeitig die Minecraft-Spielfigur in grundlegenden Vorgängen steuern. Diese Fähigkeiten können durch die einfache Erwähnung des Wortes "Minecraft" als Aufforderung ausgelöst werden.
Diese Merkmale zeigen, dass die immer umfangreichere Videomodellierung ein vielversprechender Weg zur Entwicklung fortschrittlicher Simulatoren ist, die in der Lage sind, sowohl die physische als auch die digitale Welt zu simulieren - einschließlich der Objekte, Tiere und Menschen in ihr.
besprechen
Als Simulator hat Sora derzeit viele Einschränkungen. Zum Beispiel kann er grundlegende physikalische Interaktionen wie das Zerbrechen von Glas nicht genau simulieren. Einige Interaktionen, wie z. B. das Essen, spiegeln Veränderungen im Zustand eines Objekts nicht immer korrekt wider. Wir haben an derOpenAI Sora EinführungsseiteAndere häufige Fehler des Modells werden im Detail beschrieben, darunter Probleme wie Unstimmigkeiten in langen Videoaufnahmen oder das plötzliche Auftauchen von Objekten.
Wir glauben, dass die bestehenden Fähigkeiten von Sora zeigen, dass die weitere Skalierung des Videomodells ein vielversprechender Weg zur Entwicklung fortschrittlicher Simulatoren ist, die in der Lage sind, die physische und digitale Welt und die darin befindlichen Objekte, Tiere und Menschen genau zu modellieren.
Referenzen
-
Srivastava, Nitish, Elman Mansimov, und Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." international conference on machine learning. pmlr, 2015.
-
Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).
-
Ha, David, und Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).
-
Vondrick, Carl, Hamed Pirsiavash und Antonio Torralba: "Generierung von Videos mit Szenendynamik", Fortschritte in neuronalen Informationsverarbeitungssystemen. 29 (2016).
-
Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
-
Clark, Aidan, Jeff Donahue und Karen Simonyan: "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).
-
Brooks, Tim, et al. "Generating long videos of dynamic scenes" Advances in Neural Information Processing Systems 35 (2022): 31769-31781.
-
Yan, Wilson, et al. "Videogpt: video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).
-
Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation" Europäische Konferenz über Computer Vision Cham: Springer Cham: Springer Schweiz, 2022.
-
Ho, Jonathan, et al. "Imagen video: high definition video generation with diffusion models". arXiv-Vorabdruck arXiv:2210.02303 (2022).
-
Blattmann, Andreas, et al. "Align your latents: high-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
-
Gupta, Agrim, et al. "Photorealistische Videoerzeugung mit Diffusionsmodellen". arXiv preprint arXiv:2312.06662 (2023).
-
Vaswani, Ashish, et al. "Attention is all you need". Fortschritte bei neuronalen Informationsverarbeitungssystemen 30 (2017).
-
Brown, Tom, et al. "Language models are few-shot learners". Fortschritte bei neuronalen Informationsverarbeitungssystemen 33 (2020): 1877-1901.
-
Dosovitskiy, Alexey, et al. "Ein Bild ist mehr wert als 16x16 Wörter: Transformatoren für die Bilderkennung im Maßstab". arXiv-Vorabdruck arXiv:2010.11929 (2020).
-
Arnab, Anurag, et al. "Vivit: A video vision transformer". Proceedings der internationalen IEEE/CVF-Konferenz über Computer Vision. 2021.
-
He, Kaiming, et al. "Masked autoencoders are scalable vision learners". Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
-
Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution". arXiv-Vorabdruck arXiv:2307.06304 (2023).
-
Rombach, Robin, et al. "Hochauflösende Bildsynthese mit latenten Diffusionsmodellen". Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
-
Kingma, Diederik P., und Max Welling: "Auto-encoding variational bayes". arXiv-Vorabdruck arXiv:1312.6114 (2013).
-
Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics". Internationale Konferenz über maschinelles Lernen. PMLR, 2015.
-
Ho, Jonathan, Ajay Jain, und Pieter Abbeel: "Denoising diffusion probabilistic models". Fortschritte bei neuronalen Informationsverarbeitungssystemen 33 (2020): 6840-6851.
-
Nichol, Alexander Quinn und Prafulla Dhariwal: "Verbesserte Rauschunterdrückung durch probabilistische Diffusionsmodelle". Internationale Konferenz über maschinelles Lernen. PMLR, 2021.
-
Dhariwal, Prafulla, und Alexander Quinn Nichol: "Diffusion Models Beat GANs on Image Synthesis". Fortschritte in neuronalen Informationsverarbeitungssystemen. 2021.
-
Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models". Fortschritte in neuronalen Informationsverarbeitungssystemen 35 (2022): 26565-26577.
-
Peebles, William, und Saining Xie: "Skalierbare Diffusionsmodelle mit Transformatoren". Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
-
Chen, Mark, et al. "Generatives Pretraining aus Pixeln". Internationale Konferenz über maschinelles Lernen. PMLR, 2020.
-
Ramesh, Aditya, et al. "Zero-shot text-to-image generation". Internationale Konferenz über maschinelles Lernen. PMLR, 2021.
-
Yu, Jiahui, et al. "Skalierende autoregressive Modelle für inhaltsreiche Text-zu-Bild-Generierung". arXiv-Vorabdruck arXiv:2206.10789 2.3 (2022): 5.
-
Betker, James, et al. "Bessere Bilderzeugung mit besseren Beschriftungen". Informatik. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8
-
Ramesh, Aditya, et al. "Hierarchische textbedingte Bilderzeugung mit Clip-Latenten". arXiv-Vorabdruck arXiv:2204.06125 1.2 (2022): 3.
-
Meng, Chenlin, et al. "Sdedit: geführte Bildsynthese und -bearbeitung mit stochastischen Differentialgleichungen". arXiv-Vorabdruck arXiv:2108.01073 (2021).
Autoren
- Tim Brooks
- Bill Peebles
- Connor Holmes
- Will DePue
- Yufei Guo
- Li Jing
- David Schnurr
- Joe Taylor
- Troy Luhmann
- Eric Luhmann
- Clarence Wing Yin Ng
- Ricky Wang
- Aditya Ramesh
Danksagungen
Zitat
Bitte zitieren Sie als OpenAI et al. und verwenden Sie den folgenden Bibtex für die Zitierung. https://openai.com/bibtex/videoworldsimulators2024.bib