Sora video generation model : a simulator for building virtual worlds [traduit].

Texte original :Modèles de génération vidéo en tant que simulateurs du monde

 

Nous travaillons sur l'apprentissage à grande échelle de modèles génératifs sur des données vidéo. Plus précisément, nous formons conjointement des modèles basés sur la diffusion conditionnelle de texte pour des vidéos et des images de différentes durées, résolutions et rapports d'aspect. Nous utilisons un Transformateur une architecture capable de traiter les segments spatio-temporels potentiellement encodés dans les vidéos et les images. Notre plus grand modèle, Sora, génère des vidéos de haute qualité d'une minute. Nos recherches montrent que la mise à l'échelle des modèles de génération de vidéos est une étape prometteuse vers la création d'outils polyvalents capables de simuler le monde physique.

 

 

Ce rapport technique se concentre sur deux aspects principaux : (1) comment nous pouvons transformer différents types de données visuelles en une représentation unifiée pour permettre l'entraînement à grande échelle de modèles génératifs ; (2) l'utilisation de la technologie de l'information et de la communication (TIC) pour améliorer la qualité de l'information et de la communication. Sora Évaluation qualitative des capacités et des limites du modèle. Le rapport ne contient pas d'informations détaillées sur la modélisation et la mise en œuvre.

De nombreuses études antérieures ont exploré la modélisation des données vidéo à l'aide de modèles génératifs utilisant une variété d'approches, y compris les réseaux récurrents 1,2,3, les réseaux adversaires génératifs 4,5,6,7, les transformateurs autorégressifs 8,9, et les modèles de diffusion 10,11,12. Sora est un modèle de modélisation généralisée des données visuelles capable de générer des vidéos et des images de différentes durées, rapports d'aspect et résolutions, jusqu'à une minute de vidéo HD.

 

Transformation innovante de données visuelles : techniques de patching

Inspirés par le succès des grands modèles de langage (LLM) dans le traitement des données à l'échelle de l'Internet et le développement de compétences globales13,14, nous avons étudié comment des avantages similaires pouvaient être appliqués aux modèles génératifs de données visuelles. Le modèle de langage à grande échelle a été développé en utilisant jetons -- Un système d'information sur les langues est un moyen efficace d'unifier le traitement du code, des mathématiques et de plusieurs langues naturelles, ce qui permet des transitions intermodales transparentes. Dans cette étude, nous introduisons un équivalent dans le domaine visuel : le langage visuel.correctif(patchs). Il a été démontré que les patchs constituent une forme efficace de représentation des données visuelles15,16,17,18 et qu'ils peuvent considérablement améliorer la capacité des modèles génératifs à traiter diverses données vidéo et images.

Sora视频生成模型:构建虚拟世界的模拟器 [译]
Fig. 1 : Schéma de principe du patch

Plus précisément, nous réalisons la transformation de la vidéo en patch en compressant d'abord les données vidéo dans un espace potentiel de faible dimension,19 puis en les décomposant en patchs spatio-temporels.

 

réseau de compression vidéo

Nous avons mis au point une technique de réduction de la dimensionnalité,20 capable de traiter des données vidéo brutes et de générer des représentations latentes compressées à la fois dans le temps et dans l'espace.Sora est entraîné dans cet espace latent compressé et est capable de générer un nouveau contenu vidéo. Sora est entraîné dans cet espace latent compressé et est capable de générer un nouveau contenu vidéo. En outre, nous avons développé un décodeur capable de réduire ces représentations latentes en images vidéo au niveau du pixel.

 

technologie time-patch

En traitant l'entrée vidéo compressée, nous sommes en mesure d'extraire une série de taches spatio-temporelles qui jouent un rôle similaire à celui des jetons de transformation dans le modèle. Il convient de noter que ce schéma est également applicable au traitement d'images, puisque, essentiellement, une image peut être considérée comme une trame vidéo unique. En utilisant une représentation basée sur les patchs, Sora est capable de s'adapter à des vidéos et à des images de résolutions, de durées et de rapports d'aspect différents. Lors de la génération de nouveaux contenus vidéo, nous pouvons contrôler la taille et la forme de la vidéo finale en organisant ces patchs initialisés de manière aléatoire dans une grille de la taille souhaitée.

 

Extension du transformateur pour la génération vidéo

Sora est un modèle de diffusion21,22,23,24,25 ; il est capable d'accepter des morceaux d'images bruitées (et des informations conditionnelles telles que des indices textuels) en entrée, et est entraîné à prédire les morceaux d'images "claires" d'origine. Il convient de noter que Sora est un transformateur diffus et que la technologie des transformateurs a démontré une excellente évolutivité dans un certain nombre de domaines, notamment la modélisation du langage13,14 , la vision par ordinateur15,16,17,18 et la génération d'images27,28,29 .

Sora视频生成模型:构建虚拟世界的模拟器 [译]
Figure Diffusion

Dans cette étude, nous constatons que le transformateur basé sur la diffusion s'adapte également de manière efficace au domaine de la modélisation vidéo. Dans la section suivante, nous démontrons l'amélioration significative de la qualité des échantillons apportée par l'augmentation des ressources d'entraînement en comparant les échantillons vidéo dans des conditions de semences et d'entrées fixes pendant l'entraînement.

calcul de base

Calcul quadruple

Calcul de 16 fois

 

Diversité de la durée, de la résolution et du format des vidéos

Les méthodes traditionnelles de génération d'images et de vidéos redimensionnent généralement les vidéos à des tailles standard, par exemple des vidéos de 4 secondes traitées à une résolution de 256x256. Nous avons constaté que l'entraînement directement sur la taille originale de la vidéo présente de nombreux avantages.

 

Capacités d'échantillonnage flexibles

Sora est capable de produire des vidéos dans une variété de tailles, y compris 1920x1080p pour un écran large, 1080x1920 pour un portrait, et tout ce qui se trouve entre les deux. Cela permet à Sora de produire directement du contenu pour différents appareils qui correspondent à leurs rapports d'aspect natifs. De plus, cela nous permet de prototyper rapidement du contenu à des tailles inférieures avant de générer du contenu en pleine résolution, le tout à partir du même modèle.

Optimisation de la composition et de la mise en page

Nos expériences montrent que l'entraînement sur le rapport d'aspect natif d'une vidéo améliore de manière significative la qualité de la composition et de la mise en page de la vidéo. Nous avons comparé Sora à un autre modèle d'apprentissage qui recadre toutes les vidéos d'apprentissage au format carré, ce qui est la pratique habituelle lors de l'apprentissage de modèles génératifs. La vidéo générée par Sora (à droite) présente de meilleurs résultats en termes de composition que le modèle recadré en carré (à gauche), où le sujet n'est parfois que partiellement représenté. Sora, en revanche, est mieux à même de capturer la scène dans son intégralité.

compréhension de la langue

Pour développer des systèmes capables de générer des vidéos à partir de textes, nous avons besoin d'un grand nombre de vidéos et des descriptions textuelles correspondantes. Nous avons utilisé une technique de réétiquetage introduite dans DALL-E 330 et l'avons appliquée aux vidéos. Nous avons d'abord entraîné un modèle capable de générer des descriptions détaillées, puis nous avons utilisé ce modèle pour créer des descriptions textuelles pour toutes les vidéos de l'ensemble d'entraînement. Nous avons constaté que l'entraînement à l'aide de descriptions vidéo très détaillées permet non seulement d'améliorer la précision du texte, mais aussi d'améliorer de manière significative la qualité globale des vidéos.

Comme pour DALL-E 3, nous utilisons également GPT pour convertir les courtes instructions de l'utilisateur en instructions détaillées, qui sont ensuite envoyées au modèle de génération vidéo. Ce processus permet à Sora de produire des vidéos de haute qualité basées sur les instructions de l'utilisateur.

 

Exemples de compétences en compréhension de la langue (cliquer pour agrandir)
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Mumbai-India-during- a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing- blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width= "640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant balade-en-Johannesburg-Afrique-du-sud-pendant-un-beau-coucher-de-coucher-de-soleil.mp4[/videopack][videopack width="640" height="360" downloadlink="true" ]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa -pendant-une-tempête-hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman- en-jean-bleu-et-tee-shirt-blanc-en-promenade-pleasant-en-Johannesburg-Afrique-du-sud-pendant-un-festival-en-couleurs.mp4[/ videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white -t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Antarctique-pendant-une-tempête-hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/ a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Antarctica-during-a-colourful-festival.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Mumbai-India-during-a- tempête-hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a- green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll- in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:/ /cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a- tempête-hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a- green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-colourful-festival.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-Antarctica-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Antarctica-during-a- tempête-hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a- green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Antarctica-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant- stroll-in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm. mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls- and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height=" 360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Johannesburg-Afrique du Sud-un beau coucher de soleil.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during une tempête hivernale.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing- purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots- taking-a-pleasant-stroll-in-Antarctica-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Antarctica-during- a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing- purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack][videopack width= "640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a- balade-agréable-en-Mumbai-Inde-pendant-un-beau-coucher-de-coucher-de-soleil.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Mumbai-India-during-a- tempête-hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/an-old-man-wearing- blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360"] [/videopack][/videopack width="640" height="360"] [/videopack "640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a- agréable-promenade-en-Johannesburg-Afrique-du-Sud-pendant-un-beau-coucher-de-coucher-de-soleil.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Johannesburg-Afrique du Sud-pendant-une-tempête-hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/un-vieux-homme-portant-un-jean-bleu-et-un-t-shirt-blanc-faisant-une-pleasant-promenade-en-johannesburg-afrique-du-sud-au-cours-d'un colorful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man- porter-un-jean-bleu-et-un-t-shirt-blanc-se promener-en-Antarctique-durant-un-coucher-de-coucher-de-soleil-belle.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a -pleasant-stroll-in-Antarctica-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/un-vieux-homme-portant-un-jean-bleu-et-un-t-shirt-blanc-faisant-une-belle-promenade-en-antarctique-pendant-un-festival-colorant.mp4[/videopack][videopack width=640 height=360 festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a- green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant- stroll-in-Mumbai-India-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/un-vieux-homme-portant-une-robe-verte-et-un-chapeau-de-soleil-faisant-une-plaisante-promenade-à-Mumbai-Inde-pendant-un-festival-coloré.mp4[/videopack][videopack width="640" height="360" downloadlink="true festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a- green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- Une promenade agréable à Johannesburg en Afrique du Sud pendant une tempête d'hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in- Johannesburg-Afrique du Sud-au cours d'un festival coloré.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/un-vieux-homme-portant-une-robe-verte-et-un-chapeau-de-soleil-faisant-une-promenade-plaisante-en-Antarctique-pendant-un-beau-coucher-de-soleil.mp4[/videopack][videopack width=640 height=360 sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green habiller-et-un-chapeau-de-soleil-pour-faire-une-promenade-en-antarctique-pendant-une-tempête-hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in- Antarctique-pendant-un-festival-en-couleurs.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/ tmp/s/un-vieux-homme-portant-une-salopette-pourpre-et-des-bottes-de-cowboy-faisant-une-promenade-plaisante-à-mumbai-en-inde-pendant-un-beau-coucher-de-coucher-de-soleil.mp4[/ videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Mumbai-Inde-pendant-un-festival-en-couleurs.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com /tmp/s/un-vieux-homme-portant-une-salopette-pourpre-et-des-bottes-de-cowboy-faisant-une-promenade-plaisante-en-johannesburg-afrique-du-sud-au-cours-d'un- beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man- portant-une-salopette-pourpre-et-des-bottes-de-cowboy-pour-une-promenade-plaisante-à-Johannesburg-en-Afrique-du-Sud-pendant-une-tempête-hivernale.mp4[/ videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-colourful-festival.mp4[/ videopack][videopack width="640 "height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a- pleasant-stroll-in-Antarctica-during-a-beautiful-sunset.mp4[/videopack][videopack width="640 " height="360" downloadlink="true"]https. //cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-winter- storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple- salopettes-et-bottes-de-cowboy-pour-une-promenade-en-antarctique-pendant-un-festival-en-couleurs.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant- stroll-in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/a-toy-robot-portant-un-jean-bleu-et-un-t-shirt-blanc-faisant-une-pleasant-promenade-en-mumbai-india-pendant-une-tempête-hiver .mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans- and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height ="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll -in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https. //cdn.openai.com/tmp/s/a-toy-robot-portant-un-jean-bleu-et-un-t-shirt-blanc-faisant-une-promenade-pleasant-en-Johannesburg-South-Africa- during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot -portant-un-jean-bleu-et-un-tee-shirt-blanc-passant-une-promenade-en-johannesburg-afrique-du-sud-pendant-un-festival-colorant.mp4[/ videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a- t-shirt-blanc-une-promenade-pleasant-en-Antarctique-pendant-un-beau-coucher-de-coucher-de-soleil.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Antarctique-pendant-une-tempête-hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/ a-toy-robot-portant-un-jean-bleu-et-un-t-shirt-blanc-faisant-une-balade-pleasant-en-antarctique-pendant-un-festival-colorant.mp4[/ videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and- a-sun-hat-taking-a-pleasant-stroll-in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in- Mumbai-Inde-pendant-une-tempête-hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/ s/a-toy-robot-portant-une-robe-verte-et-un-chapeau-de-soleil-faisant-une-promenade-plaisante-à-Mumbai-Inde-pendant-un-festival-colorant.mp4[/ videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and- a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/ videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant- stroll-in-Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa -pendant-un-festival-de-couleurs.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy -robot-portant-une-robe-verte-et-un-chapeau-de-soleil-faisant-une-promenade-pleasant-en-Antarctique-pendant-un-beau-coucher-de-coucher-de-soleil.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Antarctica-during-a- festival-couleur.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy-robot- wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink= "true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Mumbai-India- during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy- robot-portant-des-salopettes-pourpres-et-des-bottes-de-cowboy-pour-se-promener-en-johannesburg-afrique-du-sud-pendant-un-beau-coucher-de-coucher-de-soleil.mp4 [/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls- and-cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a- balade-agréable-en-Johannesburg-Afrique-du-sud-pendant-un-festival-en-couleurs.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Antarctique-un beau coucher de soleil.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/ tmp/s/a-toy-robot-portant-une-salopette-violette-et-des-bottes-de-cowboy-faisant-une-promenade-en-antarctique-pendant-une-tempête-hiver.mp4[/ videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls- and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360 "downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant- stroll-in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/un-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a- tempête-hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo -portant-un-jean-bleu-et-un-t-shirt-blanc-faisant-une-promenade-plaisante-à-mumbai-en-inde-pendant-un-festival-en-couleurs.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a- pleasant-stroll-in-Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Johannesburg-Afrique du Sud-au cours d'un festival coloré.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/un-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a- beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable- kangourou portant un jean bleu et un tee-shirt blanc faisant une promenade en Antarctique pendant une tempête d'hiver.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- t-shirt-blanc-une-promenade-pleasant-en-Antarctique-pendant-un-festival-en-couleurs.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll -in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai. com/tmp/s/un-adorable-kangourou-portant-une-robe-verte-et-un-chapeau-de-soleil-faisant-une-plaisante-promenade-à-mumbai-en-inde-pendant-une-tempête-hiver. mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a- green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a- agréable-promenade-en-Johannesburg-Afrique-du-Sud-pendant-un-beau-coucher-de-coucher-de-soleil.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll -in-Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/un-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South- Africa-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s /un-adorable-kangourou-portant-une-robe-verte-et-un-chapeau-de-soleil-faisant-une-promenade-en-antarctique-pendant-un-beau-coucher-de-coucher-de-soleil.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green- robe-et-un-chapeau-de-soleil-pour-faire-une-promenade-en-antarctique-pendant-une-tempête-d'hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll -en-Antarctique-pendant-un-festival-de-couleurs.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai. com/tmp/s/un-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a- beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable- kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and- cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant- stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Johannesburg-Afrique du Sud-pendant-une-tempête-hiver.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn. openai.com/tmp/s/un-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South- Africa-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s /un-adorable-kangourou-portant-une-salopette-violette-et-des-bottes-de-cowboy-faisant-une-promenade-plaisante-en-antarctique-pendant-un-beau-coucher-de-coucher-de-soleil. mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing- purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack][/videopack]

 

Fonction de repérage pour les images et les vidéos

Tous les exemples et vidéos présentés sur notre site sont convertis à partir de textes. Cependant, Sora peut également accepter des images ou des vidéos existantes en entrée. Cette fonctionnalité permet à Sora d'effectuer une variété de tâches d'édition d'images et de vidéos, telles que la création de vidéos en boucle, l'animation d'images fixes, l'allongement de la durée de lecture des vidéos, et bien plus encore.

 

Faire bouger les images de DALL-E

Sora peut créer des vidéos à partir d'une simple image et d'une invite. Voici quelques exemples de vidéos générées à partir des images de DALL-E 231 et DALL-E 330.

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Un Shiba Inu portant un béret et un col roulé noir.

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Illustration de style graphique d'une famille composée de divers monstres. Il y a un monstre brun à fourrure, un monstre noir élégant avec des tentacules, un monstre vert tacheté et un petit monstre à pois qui interagissent dans un environnement agréable.

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Formes réalistes d'images de nuages avec le mot "SORA".

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Dans une salle historique richement décorée, une énorme vague s'apprête à déferler. Deux surfeurs saisissent l'occasion pour surfer habilement sur la vague.

 

Étirement du temps vidéo

Sora est également capable d'étendre les vidéos vers l'avant ou vers l'arrière. Vous trouverez ci-dessous quatre vidéos qui commencent toutes par un clip vidéo généré et qui s'étendent vers l'arrière. Ainsi, même si ces quatre vidéos ont des débuts différents, elles convergent toutes vers la même fin.

Grâce à cette technique, nous avons pu étendre la vidéo vers l'avant ou vers l'arrière, créant ainsi un effet de boucle infinie parfait.

 

Montage innovant de vidéo à vidéo

La modélisation de la diffusion ouvre de nouveaux horizons pour l'édition d'images et de vidéos basée sur des indices textuels. Ensuite, nous l'avons appliquée à Sora en utilisant l'une de ces innovations, SDEdit32 , une technologie qui permet à Sora de modifier le style et l'environnement d'une vidéo sans aucun exemple préalable. Cette technologie permet à Sora de modifier le style et l'environnement d'une vidéo sans aucun exemple préalable.

Entrée vidéo

Changez le réglage pour Lush Jungle.

Modifiez les paramètres en fonction des années 1920 et utilisez le vieux symbole de rejet de la capture.

Faites-le sous l'eau.

Changez les paramètres de la vidéo pour une scène différente de celle des montagnes ? Peut-être l'arbre de Joshua ?

Placez la vidéo dans l'espace avec un chemin arc-en-ciel.

Conservez la même vidéo, mais faites-en une vidéo d'hiver.

Réalisé dans un style d'animation en pâte à modeler.

Recréez-la dans le style d'un dessin au fusain, en veillant à ce qu'elle soit en noir et blanc.

Changez le décor en Cyberpunk.

Changez la vidéo pour un thème médiéval.

Il faut qu'il y ait des dinosaures.

Réécrivez la vidéo dans un style pixel art.

 

Transitions fluides entre les vidéos

Nous pouvons également utiliser Sora pour relier en douceur deux vidéos très différentes afin qu'elles se transforment naturellement comme si elles ne formaient qu'une seule et même vidéo. Dans l'exemple ci-dessous, vous verrez que la vidéo du milieu mélange subtilement des éléments des vidéos de gauche et de droite.

La création magique d'images

La capacité de Sora à créer des images étonnantes ne se limite pas à la vidéo. Nous réalisons cette magie en arrangeant des blocs de bruit gaussien dans une grille spatiale d'une seule image. Sora est ainsi capable de créer des images de toutes tailles, jusqu'à une résolution maximale de 2048x2048.

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Un portrait en gros plan d'une dame au milieu d'une journée d'automne avec des détails étonnants et une profondeur de champ étonnamment faible.

 

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Un récif corallien vibrant avec des poissons colorés et une vie marine qui se faufile à l'intérieur et à l'extérieur.

 

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Le dessin numérique d'un jeune tigre sous un pommier montre la beauté des détails dans le style matte painting.

 

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Un village de montagne enneigé, des chalets confortables et des aurores boréales se déploient dans des détails exquis, comme s'ils avaient été pris avec un reflex numérique équipé d'un objectif 50 mm f/1,2.

 

 

Capacités de simulation émergentes

Nous avons constaté qu'en cas d'entraînement à grande échelle, le modèle vidéo présentait un ensemble convaincant de capacités émergentes. Ces capacités permettent à Sora de simuler, dans une certaine mesure, des personnes, des animaux et des environnements du monde réel. Ces capacités émergentes ne requièrent aucune préférence prédéterminée spécifique pour l'espace 3D, les objets, etc. - elles sont purement le résultat de l'échelle des données.

Cohérence spatiale tridimensionnelle. Sora génère des vidéos avec des changements de perspective dynamiques. Lorsque la position et l'angle de la caméra changent, les personnages et les éléments de la scène de la vidéo peuvent se déplacer de manière cohérente dans l'espace tridimensionnel.

Continuité à long terme et persistance des objets. Le maintien de la continuité temporelle lors de la génération de longues vidéos a été un défi. Nous avons observé que Sora est généralement capable de gérer efficacement les dépendances à court et à long terme. Par exemple, notre modèle est capable de maintenir la présence continue de personnages, d'animaux ou d'objets même s'ils sont occultés ou déplacés hors du cadre. De même, il est capable de montrer le même personnage plusieurs fois dans le même échantillon vidéo, en garantissant son apparition tout au long de l'image.

Interaction avec le monde. Sora peut parfois simuler un comportement qui affecte simplement l'état du monde. Par exemple, les coups de pinceau qu'un peintre laisse sur une toile persistent dans le temps, ou les marques de morsure laissées par quelqu'un qui mange un hamburger.

Analogue du monde numérique. Sora peut également simuler des processus numériques tels que des jeux vidéo. Il peut restituer l'univers du jeu et sa dynamique en haute qualité tout en contrôlant le personnage du jeu Minecraft dans des opérations de base. Ces capacités peuvent être déclenchées en mentionnant simplement le mot "Minecraft".

Ces caractéristiques démontrent que l'échelle sans cesse croissante de la modélisation vidéo est une voie prometteuse vers le développement de simulateurs avancés capables de simuler à grande échelle le monde physique et numérique, y compris les objets, les animaux et les personnes qui s'y trouvent.

 

discuter

En tant que simulateur, Sora présente actuellement de nombreuses limites. Par exemple, il ne peut pas simuler avec précision des interactions physiques de base telles que le bris de verre. Certaines interactions, comme manger, ne reflètent pas toujours correctement les changements d'état d'un objet. Nous avons travaillé sur lePage d'introduction à OpenAI SoraD'autres défaillances courantes du modèle sont décrites en détail, notamment des problèmes tels que des incohérences dans de longs échantillons vidéo ou l'apparition soudaine d'objets.

Nous pensons que les capacités actuelles de Sora démontrent que la poursuite de la mise à l'échelle du modèle vidéo est une voie prometteuse vers le développement de simulateurs avancés capables de modéliser avec précision les mondes physique et numérique, ainsi que les objets, les animaux et les êtres humains qui s'y trouvent.

 

Références

  1. Srivastava, Nitish, Elman Mansimov et Ruslan Salakhudinov, "Unsupervised learning of video representations using lstms", international conference on machine learning. pmlr, 2015.

  2. Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).

  3. Ha, David, et Jürgen Schmidhuber, "World models", arXiv preprint arXiv:1803.10122 (2018).

  4. Vondrick, Carl, Hamed Pirsiavash et Antonio Torralba, "Generating videos with scene dynamics", Advances in neural information processing systems. 29 (2016).

  5. Tulyakov, Sergey, et al. "Mocogan : Decomposing motion and content for video generation", Proceedings of the IEEE conference on ordinateur vision et reconnaissance des formes. 2018.

  6. Clark, Aidan, Jeff Donahue et Karen Simonyan, "Adversarial video generation on complex datasets", arXiv preprint arXiv:1907.06571 (2019).

  7. Brooks, Tim, et al. "Generating long videos of dynamic scenes", Advances in Neural Information Processing Systems 35 (2022) : 31769-31781.

  8. Yan, Wilson, et al. "Videogpt : video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).

  9. Wu, Chenfei, et al. "Nüwa : Visual synthesis pre-training for neural visual world creation", European conference on computer vision, Cham : Springer Cham : Springer Suisse, 2022.

  10. Ho, Jonathan, et al. "Imagen video : high definition video generation with diffusion models". arXiv preprint arXiv:2210.02303 (2022).

  11. Blattmann, Andreas, et al. "Align your latents : high-resolution video synthesis with latent diffusion models", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

  12. Gupta, Agrim, et al. "Photorealistic video generation with diffusion models", arXiv preprint arXiv:2312.06662 (2023).

  13. Vaswani, Ashish, et al. "Attention is all you need". Progrès dans les systèmes de traitement neuronal de l'information 30 (2017).

  14. Brown, Tom, et al. "Language models are few-shot learners". Progrès dans les systèmes de traitement neuronal de l'information 33 (2020): 1877-1901.

  15. Dosovitskiy, Alexey, et al. "An image is worth 16x16 words : transformers for image recognition at scale". arXiv preprint arXiv:2010.11929 (2020).

  16. Arnab, Anurag, et al. "Vivit : A video vision transformer". Actes de la conférence internationale IEEE/CVF sur la vision artificielle. 2021.

  17. He, Kaiming, et al. "Masked autoencoders are scalable vision learners". Actes de la conférence IEEE/CVF sur la vision artificielle et la reconnaissance des formes. 2022.

  18. Dehghani, Mostafa, et al. "Patch n'Pack : NaViT, a Vision Transformer for any Aspect Ratio and Resolution". arXiv preprint arXiv:2307.06304 (2023).

  19. Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models". Actes de la conférence IEEE/CVF sur la vision artificielle et la reconnaissance des formes. 2022.

  20. Kingma, Diederik P., et Max Welling, "Auto-encoding variational bayes". arXiv preprint arXiv:1312.6114 (2013).

  21. Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics". Conférence internationale sur l'apprentissage automatique. PMLR, 2015.

  22. Ho, Jonathan, Ajay Jain et Pieter Abbeel, "Denoising diffusion probabilistic models". Progrès dans les systèmes de traitement neuronal de l'information 33 (2020): 6840-6851.

  23. Nichol, Alexander Quinn et Prafulla Dhariwal, "Improved denoising diffusion probabilistic models". Conférence internationale sur l'apprentissage automatique. PMLR, 2021.

  24. Dhariwal, Prafulla, et Alexander Quinn Nichol, "Diffusion Models Beat GANs on Image Synthesis". Progrès dans les systèmes de traitement neuronal de l'information. 2021.

  25. Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models". Progrès dans les systèmes de traitement neuronal de l'information 35 (2022): 26565-26577.

  26. Peebles, William et Saining Xie, "Scalable diffusion models with transformers". Actes de la conférence internationale IEEE/CVF sur la vision par ordinateur. 2023.

  27. Chen, Mark, et al. "Generative pretraining from pixels". Conférence internationale sur l'apprentissage automatique. PMLR, 2020.

  28. Ramesh, Aditya, et al. "Zero-shot text-to-image generation". Conférence internationale sur l'apprentissage automatique. PMLR, 2021.

  29. Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation". arXiv preprint arXiv:2206.10789 2.3 (2022): 5.

  30. Betker, James, et al. "Improving image generation with better captions". Informatique. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8

  31. Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents". arXiv preprint arXiv:2204.06125 1.2 (2022): 3.

  32. Meng, Chenlin, et al. "Sdedit : guided image synthesis and editing with stochastic differential equations". arXiv preprint arXiv:2108.01073 (2021).

Auteurs

Remerciements

Citation

Veuillez citer OpenAI et al. et utiliser le bibtex suivant pour la citation. https://openai.com/bibtex/videoworldsimulators2024.bib

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...