Sora Video Generation Model: ein Simulator für den Aufbau virtueller Welten [übersetzt].

AI-WissensdatenbankAktualisiert vor 11 Monaten AI-Austauschkreis

10.9K 00

Ursprünglicher Text:Videogenerierungsmodelle als Weltsimulatoren

Wir arbeiten an einem groß angelegten Training von generativen Modellen auf Videodaten. Insbesondere trainieren wir gemeinsam textbedingte diffusionsbasierte Modelle für Videos und Bilder unterschiedlicher Dauer, Auflösung und Seitenverhältnisse. Wir verwenden ein Transformator Architektur, die in der Lage ist, räumlich-zeitliche Segmente zu verarbeiten, die möglicherweise in Videos und Bildern kodiert sind. Unser größtes Modell, Sora, erzeugt qualitativ hochwertige einminütige Videos. Unsere Forschung zeigt, dass die Skalierung von Modellen zur Videogenerierung ein vielversprechender Schritt hin zur Schaffung von Allzweckwerkzeugen ist, die die physische Welt simulieren können.

Dieser technische Bericht konzentriert sich auf zwei Hauptaspekte: (1) wie wir verschiedene Arten von visuellen Daten in eine einheitliche Darstellung umwandeln können, um das Training von generativen Modellen in großem Maßstab zu ermöglichen; (2) die Sora Qualitative Bewertung der Fähigkeiten und Grenzen des Modells. Detaillierte Informationen zur Modellierung und Umsetzung sind im Bericht nicht enthalten.

Viele frühere Studien haben die Modellierung von Videodaten mit generativen Modellen unter Verwendung verschiedener Ansätze untersucht, darunter rekurrente Netze 1,2,3, generative adversarische Netze 4,5,6,7, autoregressive Transformatoren 8,9 und Diffusionsmodelle 10,11,12 Diese Studien haben sich in der Regel auf bestimmte Klassen visueller Daten, kürzere Videos oder Videos fester Größe konzentriert. ein Modell für die verallgemeinerte Modellierung visueller Daten, das in der Lage ist, Videos und Bilder verschiedener Dauer, Seitenverhältnisse und Auflösungen bis hin zu einer Minute HD-Video zu erzeugen.

Innovative Umwandlung von visuellen Daten: Patching-Techniken

Inspiriert durch den Erfolg großer Sprachmodelle (LLMs) bei der Verarbeitung von Internetdaten und der Entwicklung von Allround-Fähigkeiten13,14 haben wir untersucht, wie ähnliche Vorteile auf generative Modelle für visuelle Daten angewendet werden können. Das Large Language Model wurde entwickelt unter Verwendung von Token -- ein effizienter Weg zur Vereinheitlichung der Verarbeitung von Code, Mathematik und mehreren natürlichen Sprachen -- ermöglicht nahtlose intermodale Übergänge. In dieser Studie führen wir ein Gegenstück im visuellen Bereich ein: visuellePatch(Patches). Es hat sich gezeigt, dass Patches eine effiziente Form der Darstellung visueller Daten sind,15,16,17,18 und dass sie die Fähigkeit generativer Modelle zur Verarbeitung unterschiedlicher Video- und Bilddaten erheblich verbessern können.

Sora视频生成模型：构建虚拟世界的模拟器 [译] — Abb. 1: Schematische Darstellung des Pflasters

Konkret erreichen wir die Umwandlung von Video in Patches, indem wir die Videodaten zunächst in einen niedrigdimensionalen potenziellen Raum19 komprimieren und sie dann in räumlich-zeitliche Patches zerlegen.

Videokompressionsnetzwerk

Wir haben eine Technik zur Dimensionalitätsreduzierung20 entwickelt, die in der Lage ist, Videorohdaten zu verarbeiten und latente Darstellungen zu erzeugen, die sowohl zeitlich als auch räumlich komprimiert sind.Sora wird in diesem komprimierten latenten Raum trainiert und ist in der Lage, neue Videoinhalte zu erzeugen. Darüber hinaus haben wir einen Decoder entwickelt, der in der Lage ist, diese latenten Repräsentationen in Videobilder auf Pixelebene zu reduzieren.

Time-Patch-Technik

Durch die Verarbeitung des komprimierten Videoinputs sind wir in der Lage, eine Reihe von räumlich-zeitlichen Patches zu extrahieren, die eine ähnliche Rolle wie Transformer Tokens in dem Modell spielen. Es ist erwähnenswert, dass dieses Schema auch auf die Bildverarbeitung anwendbar ist, da ein Bild im Wesentlichen als ein Einzelbild eines Videos betrachtet werden kann. Durch die Verwendung einer patch-basierten Darstellung ist Sora in der Lage, sich an Videos und Bilder mit unterschiedlichen Auflösungen, Laufzeiten und Seitenverhältnissen anzupassen. Bei der Erzeugung neuer Videoinhalte können wir die Größe und Form des endgültigen Videos steuern, indem wir diese zufällig initialisierten Patches in einem Raster der gewünschten Größe anordnen.

Transformator-Erweiterung für die Videoerzeugung

Sora ist ein Diffusionsmodell21,22,23,24,25 ; es ist in der Lage, verrauschte Bildteile (und bedingte Informationen wie z. B. textuelle Hinweise) als Eingabe zu akzeptieren und wird darauf trainiert, die ursprünglichen "klaren" Bildteile vorherzusagen. Es ist erwähnenswert, dass Sora ein diffuser Transformer ist, und die Transformer-Technologie hat in einer Reihe von Bereichen wie Sprachmodellierung13,14 , Computer Vision15,16,17,18 und Bilderzeugung27,28,29 hervorragende Skalierbarkeit bewiesen.

In dieser Studie stellen wir fest, dass der diffusionsbasierte Transformer auch im Bereich der Videomodellierung effizient skaliert. Im folgenden Abschnitt zeigen wir die signifikante Verbesserung der Probenqualität, die durch die Erhöhung der Trainingsressourcen erreicht wird, indem wir Videoproben unter festen Start- und Eingabebedingungen während des Trainings vergleichen.

grundlegende Berechnung

4-fache Berechnung

16-fache Berechnung

Unterschiedliche Videodauer, Auflösung und Seitenverhältnis

Bei herkömmlichen Bild- und Videoerstellungsmethoden werden Videos in der Regel auf Standardgrößen verkleinert, z. B. ein 4 Sekunden langes Video mit einer Auflösung von 256x256. Wir haben festgestellt, dass das Training direkt an der Originalgröße des Videos mehrere Vorteile bietet.

Flexible Stichprobenmöglichkeiten

Sora ist in der Lage, Videos in einer Vielzahl von Größen zu produzieren, einschließlich 1920x1080p für Widescreen, 1080x1920 für Portrait und alles dazwischen. So kann Sora direkt Inhalte für verschiedene Geräte produzieren, die deren nativen Seitenverhältnissen entsprechen. Außerdem können wir so schnell einen Prototyp für Inhalte in niedrigeren Größen erstellen, bevor wir Inhalte in voller Auflösung generieren - und das alles mit demselben Modell.

Optimierung der Zusammensetzung und des Layouts

Unsere Experimente zeigen, dass das Training auf dem nativen Seitenverhältnis eines Videos die Kompositions- und Layoutqualität des Videos deutlich verbessert. Wir haben Sora mit einem anderen Trainingsmodell verglichen, das alle Trainingsvideos auf Quadrate beschneidet, was die übliche Praxis beim Training generativer Modelle ist. Das von Sora generierte Video (rechte Seite) zeigt bessere Kompositionsergebnisse als das auf ein Quadrat zugeschnittene Modell (linke Seite), bei dem das Motiv manchmal nur teilweise zu sehen ist. Sora hingegen ist besser in der Lage, die gesamte Szene zu erfassen.

Sprachverständnis

Um Systeme zu entwickeln, die in der Lage sind, Videos aus Texten zu generieren, benötigen wir eine große Anzahl von Videos und die entsprechenden Textbeschreibungen. Wir haben eine in DALL-E 330 eingeführte Technik zur Neuetikettierung verwendet und auf die Videos angewandt. Zunächst haben wir ein Modell trainiert, das in der Lage ist, detaillierte Beschreibungen zu generieren, und dieses Modell dann verwendet, um Textbeschreibungen für alle Videos im Trainingssatz zu erstellen. Wir haben festgestellt, dass das Training mit sehr aussagekräftigen Videobeschreibungen nicht nur die Genauigkeit des Textes verbessert, sondern auch die Gesamtqualität der Videos erheblich steigert.

Wie bei DALL-E 3 verwenden wir auch hier GPT, um kurze Benutzereingaben in detaillierte Anweisungen umzuwandeln, die dann an das Videogenerierungsmodell gesendet werden. Mit diesem Verfahren kann Sora auf der Grundlage der Benutzeranweisungen hochwertige Videos produzieren.

Beispiele für Sprachverständnisfähigkeiten (zum Vergrößern anklicken)

[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- ein-schöner-spaziergang-in-mumbai-indien-bei-schoenem-sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Mumbai-India-during- ein-wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing- blaue-jeans-und-ein-weisses-shirt-ein-angenehmer-bummel-in-mumbai-indien-bei-einem-bunten-festival.mp4[/videopack][videopack width= "640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant -Spaziergang-in-Johannesburg-Südafrika-bei-schönem-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true" ]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa -während-eines-Wintersturms.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman- in-blauen-Jeans-und-einem-weißen-Hemd-bei-einem-angenehmen-Spaziergang-in-Johannesburg-Südafrika-bei-einem-bunten-Festival.mp4[/videopack] videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white -t-shirt-auf-einem-schönen-Spaziergang-in-der-Antarktis-bei-einem-schönen-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Antarktis-bei-Wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/ Eine-Frau-trug-blaue-Jeans-und-ein-weißes-Hemd-und machte einen-angenehmen-Spaziergang-in-Antarktika-bei-einem-bunten-Festival.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- ein-schöner-spaziergang-in-mumbai-indien-bei-schönem-sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Mumbai-India-during-a- winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a- grünes-kleid-und-sonnenhut-ein-schöner-spaziergang-in-mumbai-indien-bei-einem-bunten-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll- in-Johannesburg-Südafrika-bei-einem-schönen-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:/ /cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a- Wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a- grünes-kleid-und-sonnenhut-bei-einem-angenehmen-spaziergang-in-Johannesburg-Südafrika-bei-einem-bunten-festival.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- ein-schöner-spaziergang-in-antarktis-bei-schönem-sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Antarctica-during-a- winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a- grünes-kleid-und-einen-sonnenhut-auf-einem-angenehmen-spaziergang-in-antarktis-bei-einem-bunten-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant- Spaziergang-in-Mumbai-Indien-bei-schönem-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm. mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls- and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height=" 360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Johannesburg-Südafrika-bei-einem-schönen-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during -einem-Wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing- lila-overalls-und-cowboy-stiefel-auf-einem-angenehmen-spaziergang-in-johannesburg-südafrika-bei-einem-bunten-festival.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots- ein-schöner-spaziergang-in-antarktis-bei-schönem-sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Antarctica-during- ein-wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing- lila-overalls-und-cowboy-stiefel-auf-einem-angenehmen-spaziergang-in-antarktis-bei-einem-bunten-festival.mp4[/videopack][videopack width= "640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a- Angenehmer-Bummel-in-Mumbai-Indien-bei-schönem-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Mumbai-India-during-a- winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/an-old-man-wearing- blaue-jeans-und-ein-weisses-shirt-ein-angenehmer-spaziergang-in-mumbai-indien-bei-einem-bunten-festival.mp4[/videopack][videopack width= "640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a- Angenehmer-Spaziergang-in-Johannesburg-Südafrika-bei-einem-schönen-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Johannesburg-Südafrika-bei-Wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/ein-alter-Mann-der-blaue-Jeans-und-ein-weißes-Hemd-trug-der-einen-angenehmen-Spaziergang-in-Johannesburg-Südafrika-während-eines buntes-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man- in-blauen-Jeans-und-einem-weißen-Hemd-bei-einem-schönen-Spaziergang-in-Antarktika-bei-einem-schönen-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a -Angenehmer-Spaziergang-in-Antarktika-bei-Wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/ein-alter-Mann-der-blaue-Jeans-und-ein-weißes-Hemd-trug-der-einen-angenehmen-Spaziergang-in-der-Antarktis-bei-einem-bunten- Festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a- grünes-kleid-und-sonnenhut-bei-einem-schönen-spaziergang-in-mumbai-indien-bei-schönem-sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant- Spaziergang-in-Mumbai-Indien-bei-Wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/ein-alter-Mann-der-ein-grünes-Kleid-und-einen-Sonnenhut-trug-und-einen-angenehmen-Spaziergang-in-Mumbai-Indien-bei-einem-bunten- Festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a- grünes-kleid-und-einen-sonnenhut-bei-einem-schönen-spaziergang-in-Johannesburg-Südafrika-bei-einem-schönen-sonnenuntergang.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- Ein-schöner-Spaziergang-in-Johannesburg-Südafrika-bei-Wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in- Johannesburg-Südafrika-während eines farbenfrohen Festes.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/ein-alter-Mann-im-grünen-Kleid-und-einem-Sonnenhut-beim-schönen-Spaziergang-in-Antarktika-bei-einem-schönen- Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green -Anziehen-und-einen-Sonnenhut-einen-schönen-Spaziergang-in-der-Antarktis-bei-einem-Wintersturm-machen.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in- Antarktis-während-eines-bunten-Festivals.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/ tmp/s/ein-alter-Mann-im-lila-Overall-und-Cowboy-Stiefeln-bei-einem-schönen-Spaziergang-in-Mumbai-Indien-bei-schönem-Sonnenuntergang.mp4[/videopack][videopack][videopack][videopack][videopack][videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Mumbai-Indien-bei-einem-bunten-Festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com /tmp/s/ein-alter-Mann-im-lila-Overall-und-Cowboy-Stiefeln-macht-einen-angenehmen-Spaziergang-in-Johannesburg-Südafrika-bei-einem wunderschönen-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man- lila-overalls-und-cowboy-stiefel-tragen-bei-einem-angenehmen-spaziergang-in-Johannesburg-Südafrika-während-eines-wintersturms.mp4[/videopack] videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-colourful-festival.mp4[/videopack][videopack width="640 " height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a- Angenehmer-Spaziergang-in-Antarktika-bei-schönem-Sonnenuntergang.mp4[/videopack][videopack width="640 " height="360" downloadlink="true"]https. //cdn.openai.com/tmp/s/ein-alter-Mann-im-lila-Overall-und-Cowboy-Stiefel-trug-einen-angenehmen-Spaziergang-in-der-Antarktis-während-eines-Wintersturms- Sturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple- overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant- Spaziergang-in-Mumbai-Indien-bei-schönem-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm .mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans- and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height ="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll -in-Johannesburg-Südafrika-bei-einem-schönen-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https. //cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa- during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-Antarctica-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Antarktis-bei-Wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/ a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack] videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and- a-sun-hat-taking-a-pleasant-stroll-in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in- Mumbai-Indien-bei-Wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/ s/a-toy-robot-tragend-ein-grünes-Kleid-und-einen-Sonnenhut-bei-einem-angenehmen-Spaziergang-in-Mumbai-Indien-bei-einem-bunten-Festival.mp4[/videopack] videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and- a-sun-hat-einen-schönen-Spaziergang-in-Johannesburg-Südafrika-bei-schönem-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant- Spaziergang-in-Johannesburg-Südafrika-bei-einem-Wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa -während-eines-bunten-festivals.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy -roboter-im-grünen-kleid-und-mit-sonnenhut-auf-einem-schönen-spaziergang-in-antarktis-bei-schönem-sonnenuntergang.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- ein-schöner-winterspaziergang-in-antarktis-während-eines-wintersturms.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Antarctica-during-a- buntes-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy-robot- lila-overall-und-cowboy-stiefel-tragen-bei-einem-schönen-spaziergang-in-mumbai-indien-bei-schönem-sonnenuntergang.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- stiefel-ein-schöner-spaziergang-in-mumbai-indien-während-eines-wintersturms.mp4[/videopack][videopack width="640" height="360" downloadlink= "true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Mumbai-India- während-eines-bunten-festivals.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy- roboter-im-lila-overall-und-cowboy-stiefel-bei-einem-schönen-spaziergang-in-johannesburg-südafrika-bei-schönem-sonnenuntergang.mp4 [/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls- and-cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a- Angenehmer-Bummel-in-Johannesburg-Südafrika-bei-einem-bunten-Festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Antarktis-bei-einem-schönen-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/ tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/ videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls- and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360 " downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant- Spaziergang-in-Mumbai-Indien-bei-schönem-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/ein-liebenswertes-Känguru-trug-blaue-Jeans-und-ein-weißes-Hemd-während-eines-schönen-Spaziergangs-in-Mumbai-indien-bei-einem- winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo -blaue-jeans-und-ein-weißes-hemd-tragen-einen-angenehmen-spaziergang-in-mumbai-indien-bei-einem-bunten-festival.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a- Angenehmer-Spaziergang-in-Johannesburg-Südafrika-bei-einem-Wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Johannesburg-Südafrika-während eines farbenfrohen Festes.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/ein-liebenswertes-Känguru-trug-blaue-Jeans-und-ein-weißes-Hemd-während-eines-schönen-Spaziergangs-in-Antarktika-bei-einem schönen-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable- Känguru-trug-blaue-Jeans-und-ein-weißes-Hemd-bei-einem-schönen-Spaziergang-in-Antarktika-während-eines-Wintersturms.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- weißes-hemd-auf-einem-angenehmen-spaziergang-in-antarktis-bei-einem-farbenfrohen-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll -in-Mumbai-Indien-bei-einem-schönen-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai. com/tmp/s/ein-liebenswertes-Känguru-im-grünen-Kleid-und-einem-Sonnenhut-bei-einem-angenehmen-Spaziergang-in-Mumbai-Indien-bei-Wintersturm. mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a- grünes-kleid-und-einen-sonnenhut-nehmen-einen-angenehmen-spaziergang-in-mumbai-indien-während-eines-bunten-festivals.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a- Angenehmer-Spaziergang-in-Johannesburg-Südafrika-bei-einem-schönen-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll -in-Johannesburg-Südafrika-bei-einem-Wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/ein-liebenswertes-Känguru-trug-ein-grünes-Kleid-und-einen-Sonnenhut-beim-Spaziergang-in-Johannesburg-Süd- Africa-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green- kleid-und-einen-sonnenhut-nehmen-einen-schönen-spaziergang-in-antarktis-während-eines-wintersturms.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll -in-Antarktika-während-eines-bunten-Festivals.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai. com/tmp/s/ein-liebenswertes-känguru-im-lila-overall-und-cowboy-stiefel-auf-einem-schönen-spaziergang-in-mumbai-indien-bei-einem-schönen-sonnenuntergang.mp4 wunderschönen-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable- känguru-tragt-lila-overalls-und-cowboy-stiefel-bei-einem-schönen-winterspaziergang-in-mumbai-indien-bei-einem-wintersturm.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and- cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant- Spaziergang-in-Johannesburg-Südafrika-bei-schönem-Sonnenuntergang.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Johannesburg-Südafrika-bei-Wintersturm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn. openai.com/tmp/s/ein-liebenswertes-Känguru-mit-lila-Overall-und-Cowboy-Stiefeln-auf-einem-angenehmen-Spaziergang-in-Johannesburg-Süd- Africa-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s /ein-liebenswertes-Känguru-mit-lila-Overalls-und-Cowboy-Stiefeln-bei-einem-schönen-Spaziergang-in-der-Antarktis-bei-einem-schönen-Sonnenuntergang. mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing- lila-overalls-und-cowboy-stiefel-auf-einem-schönen-spaziergang-in-antarktis-während-eines-wintersturms.mp4[/videopack]

Cue-Funktion für Bilder und Videos

Alle Beispiele und Videos, die auf unserer Website gezeigt werden, sind aus Text konvertiert. Sora kann jedoch auch Bilder oder vorhandene Videos als Eingabe akzeptieren. Mit dieser Funktion kann Sora eine Vielzahl von Bild- und Videobearbeitungsaufgaben durchführen, wie z. B. die Erstellung von Videos mit nahtlosen Schleifen, die Animation von Standbildern, die Verlängerung der Abspielzeit von Videos und vieles mehr.

Die DALL-E-Bilder bewegen sich

Mit nur einem Bild und einer Eingabeaufforderung kann Sora Videos erstellen. Einige Beispiele für Videos, die auf der Grundlage von DALL-E 231- und DALL-E 330-Bildern erstellt wurden, werden unten gezeigt.

Video Zeitdehnung

Sora ist auch in der Lage, Videos vorwärts oder rückwärts zu verlängern. Im Folgenden finden Sie vier Videos, die alle mit einem generierten Videoclip beginnen und rückwärts ablaufen. Obwohl diese vier Videos unterschiedliche Anfänge haben, laufen sie alle am gleichen Ende zusammen.

Mit dieser Technik konnten wir das Video vorwärts oder rückwärts erweitern und so den perfekten Endlosschleifen-Effekt erzeugen.

Innovative Video-zu-Video-Bearbeitung

Die Diffusionsmodellierung eröffnet neue Horizonte für die Bild- und Videobearbeitung auf der Grundlage von textlichen Hinweisen. Als Nächstes wendeten wir sie auf Sora an und nutzten eine dieser Innovationen, SDEdit,32 eine Technologie, die Sora in die Lage versetzt, den Stil und die Umgebung eines Videos ohne vorherige Beispiele zu ändern. Diese Technologie ermöglicht es Sora, den Stil und die Umgebung eines Videos ohne vorherige Beispiele zu ändern.

Eingang Video

Ändern Sie die Einstellung auf "Üppiger Dschungel".

Ändern Sie die Einstellungen auf die 1920er Jahre und verwenden Sie das altbewährte captureRejectionSymbol. stellen Sie sicher, dass es rot bleibt.

Mach es unter Wasser.

Ändern Sie die Videoeinstellungen auf eine andere Szene als die der Berge? Vielleicht den Joshua Tree?

Platzieren Sie das Video im Raum mit einem Regenbogenpfad.

Behalten Sie das Video bei, aber machen Sie es winterlich.

Hergestellt im Knetanimationsstil.

Zeichnen Sie es im Stil einer Kohlezeichnung nach, wobei Sie darauf achten, dass es schwarz-weiß ist.

Ändern Sie die Einstellung auf Cyberpunk.

Ändern Sie das Video auf ein mittelalterliches Thema.

Es soll Dinosaurier enthalten.

Schreiben Sie das Video im Pixel-Art-Stil um.

Fließende Übergänge zwischen Videos

Wir können Sora auch verwenden, um zwei sehr unterschiedliche Videos nahtlos miteinander zu verbinden, so dass sie natürlich ineinander übergehen, als wären sie eins. Im folgenden Beispiel sehen Sie, dass das Video in der Mitte auf subtile Weise Elemente aus dem linken und dem rechten Video miteinander vermischt.

Die magische Schaffung von Bildern

Die Fähigkeit von Sora, atemberaubende Bilder zu erzeugen, ist nicht auf Videos beschränkt. Diese Magie erreichen wir durch die Anordnung von Gauß'schen Rauschblöcken in einem räumlichen Raster, das nur ein Bild lang ist. Auf diese Weise ist Sora in der Lage, Bilder in allen Größen zu erstellen, bis zu einer maximalen Auflösung von 2048x2048.

Ein Nahaufnahmeporträt einer Dame an einem Herbsttag mit erstaunlichem Detailreichtum und erstaunlich geringer Schärfentiefe.

Ein lebhaftes Korallenriff mit farbenfrohen Fischen und Meeresbewohnern, die sich in und aus dem Wasser bewegen.

Das digitale Kunstwerk eines jungen Tigers unter einem Apfelbaum zeigt die detaillierte Schönheit im Stil der Matte Painting.

Ein verschneites Bergdorf, gemütliche Hütten und das Nordlicht entfalten sich in exquisiter Detailtreue, als wäre es mit einer DSLR mit einem 50mm f/1.2 Objektiv aufgenommen worden.

Aufkommende Simulationsmöglichkeiten

Wir haben festgestellt, dass das Videomodell bei umfangreichem Training eine überzeugende Reihe von neuen Fähigkeiten aufweist. Diese Fähigkeiten verleihen Sora die Fähigkeit, Menschen, Tiere und Umgebungen der realen Welt bis zu einem gewissen Grad zu simulieren. Solche sich entwickelnden Fähigkeiten erfordern keine spezifische, vorher festgelegte Vorliebe für 3D-Raum, Objekte usw. - sie sind lediglich das Ergebnis der Skalierung der Daten.

Dreidimensionale räumliche Kohärenz. Sora erzeugt Videos mit dynamischen Perspektivwechseln. Wenn sich Kameraposition und -winkel ändern, können sich die Figuren und Szenenelemente im Video kohärent im dreidimensionalen Raum bewegen.

Langfristige Kontinuität und Objektpersistenz. Die Aufrechterhaltung der zeitlichen Kontinuität bei der Erstellung langer Videos war eine Herausforderung. Wir haben festgestellt, dass Sora in der Regel in der Lage ist, sowohl kurzfristige als auch langfristige Abhängigkeiten effektiv zu handhaben. So ist unser Modell beispielsweise in der Lage, die kontinuierliche Präsenz von Figuren, Tieren oder Objekten aufrechtzuerhalten, selbst wenn diese verdeckt oder aus dem Bild bewegt werden. Ebenso ist es in der Lage, ein und dieselbe Figur mehrmals im selben Video zu zeigen und ihr Erscheinen durchgehend zu gewährleisten.

Interaktion mit der Welt. Sora kann manchmal ein Verhalten simulieren, das einfach den Zustand der Welt beeinflusst. Zum Beispiel bleiben die Pinselstriche, die ein Maler auf einer Leinwand hinterlässt, über die Zeit bestehen, oder die Bisswunden, die jemand beim Essen eines Burgers hinterlässt.

Analog zur digitalen Welt. Sora kann auch digitale Prozesse wie Videospiele simulieren. Sie kann die Spielwelt und ihre Dynamik in hoher Qualität wiedergeben und gleichzeitig die Minecraft-Spielfigur bei grundlegenden Vorgängen steuern. Diese Fähigkeiten können durch die einfache Erwähnung des Wortes "Minecraft" als Stichwort ausgelöst werden.

Diese Merkmale zeigen, dass die immer umfangreichere Videomodellierung ein vielversprechender Weg zur Entwicklung fortschrittlicher Simulatoren ist, die in der Lage sind, sowohl die physische als auch die digitale Welt zu simulieren - einschließlich der Objekte, Tiere und Menschen in ihr.

besprechen

Als Simulator hat Sora derzeit viele Einschränkungen. Zum Beispiel kann er grundlegende physikalische Interaktionen wie das Zerbrechen von Glas nicht genau simulieren. Einige Interaktionen, wie z. B. das Essen, spiegeln Veränderungen im Zustand eines Objekts nicht immer korrekt wider. Wir haben an derOpenAI Sora EinführungsseiteAndere häufige Fehler des Modells werden im Detail beschrieben, darunter Probleme wie Unstimmigkeiten in langen Videoaufnahmen oder das plötzliche Auftauchen von Objekten.

Wir glauben, dass die bestehenden Fähigkeiten von Sora zeigen, dass die weitere Skalierung des Videomodells ein vielversprechender Weg zur Entwicklung fortschrittlicher Simulatoren ist, die in der Lage sind, die physische und digitale Welt und die darin befindlichen Objekte, Tiere und Menschen genau zu modellieren.

Referenzen

Srivastava, Nitish, Elman Mansimov, und Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." international conference on machine learning. pmlr, 2015.
Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).
Ha, David, und Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).
Vondrick, Carl, Hamed Pirsiavash und Antonio Torralba: "Generierung von Videos mit Szenendynamik", Fortschritte in neuronalen Informationsverarbeitungssystemen. 29 (2016).
Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation" - Proceedings of the IEEE conference on Computer Vision und Mustererkennung. 2018.
Clark, Aidan, Jeff Donahue und Karen Simonyan: "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).
Brooks, Tim, et al. "Generating long videos of dynamic scenes" Advances in Neural Information Processing Systems 35 (2022): 31769-31781.
Yan, Wilson, et al. "Videogpt: video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).
Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation" Europäische Konferenz über Computer Vision Cham: Springer Cham: Springer Schweiz, 2022.
Ho, Jonathan, et al. "Imagen video: high definition video generation with diffusion models". arXiv-Vorabdruck arXiv:2210.02303 (2022).
Blattmann, Andreas, et al. "Align your latents: high-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
Gupta, Agrim, et al. "Photorealistische Videoerzeugung mit Diffusionsmodellen". arXiv preprint arXiv:2312.06662 (2023).
Vaswani, Ashish, et al. "Attention is all you need". Fortschritte bei neuronalen Informationsverarbeitungssystemen 30 (2017).
Brown, Tom, et al. "Language models are few-shot learners". Fortschritte bei neuronalen Informationsverarbeitungssystemen 33 (2020): 1877-1901.
Dosovitskiy, Alexey, et al. "Ein Bild ist mehr wert als 16x16 Wörter: Transformatoren für die Bilderkennung im Maßstab". arXiv-Vorabdruck arXiv:2010.11929 (2020).
Arnab, Anurag, et al. "Vivit: A video vision transformer". Proceedings der internationalen IEEE/CVF-Konferenz über Computer Vision. 2021.
He, Kaiming, et al. "Masked autoencoders are scalable vision learners". Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution". arXiv-Vorabdruck arXiv:2307.06304 (2023).
Rombach, Robin, et al. "Hochauflösende Bildsynthese mit latenten Diffusionsmodellen". Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
Kingma, Diederik P., und Max Welling: "Auto-encoding variational bayes". arXiv-Vorabdruck arXiv:1312.6114 (2013).
Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics". Internationale Konferenz über maschinelles Lernen. PMLR, 2015.
Ho, Jonathan, Ajay Jain, und Pieter Abbeel: "Denoising diffusion probabilistic models". Fortschritte bei neuronalen Informationsverarbeitungssystemen 33 (2020): 6840-6851.
Nichol, Alexander Quinn und Prafulla Dhariwal: "Verbesserte Rauschunterdrückung durch probabilistische Diffusionsmodelle". Internationale Konferenz über maschinelles Lernen. PMLR, 2021.
Dhariwal, Prafulla, und Alexander Quinn Nichol: "Diffusion Models Beat GANs on Image Synthesis". Fortschritte in neuronalen Informationsverarbeitungssystemen. 2021.
Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models". Fortschritte in neuronalen Informationsverarbeitungssystemen 35 (2022): 26565-26577.
Peebles, William, und Saining Xie: "Skalierbare Diffusionsmodelle mit Transformatoren". Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
Chen, Mark, et al. "Generatives Pretraining aus Pixeln". Internationale Konferenz über maschinelles Lernen. PMLR, 2020.
Ramesh, Aditya, et al. "Zero-shot text-to-image generation". Internationale Konferenz über maschinelles Lernen. PMLR, 2021.
Yu, Jiahui, et al. "Skalierende autoregressive Modelle für inhaltsreiche Text-zu-Bild-Generierung". arXiv-Vorabdruck arXiv:2206.10789 2.3 (2022): 5.
Betker, James, et al. "Bessere Bilderzeugung mit besseren Beschriftungen". Informatik. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8
Ramesh, Aditya, et al. "Hierarchische textbedingte Bilderzeugung mit Clip-Latenten". arXiv-Vorabdruck arXiv:2204.06125 1.2 (2022): 3.
Meng, Chenlin, et al. "Sdedit: geführte Bildsynthese und -bearbeitung mit stochastischen Differentialgleichungen". arXiv-Vorabdruck arXiv:2108.01073 (2021).

Autoren

Danksagungen

Zitat

Bitte zitieren Sie als OpenAI et al. und verwenden Sie den folgenden Bibtex für die Zitierung. https://openai.com/bibtex/videoworldsimulators2024.bib

AI-Wissensdatenbank

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Die positive mehrdimensionale Bewertung beider Antworten erleichtert die Beurteilung der besten Antwort.

AI-Utility-Befehle

vor 8 Monaten

010.4K

Welche Trends zeichnet das Auftauchen von Manus für die KI-Entwicklung voraus?

AI-Antworten

vor 6 Monaten

012K

Wie wählt man das richtige Einbettungsmodell?

AI-Wissensdatenbank

vor 8 Monaten

09K

Fotografie-Show-Promotion - Der ultimative Marketing-Text ChatGPT Prompts

AI-Utility-Befehle

vor 1 Jahr

010K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

Sora Video Generation Model: ein Simulator für den Aufbau virtueller Welten [übersetzt].

Innovative Umwandlung von visuellen Daten: Patching-Techniken

Videokompressionsnetzwerk

Time-Patch-Technik

Transformator-Erweiterung für die Videoerzeugung