Texto original:Modelos de geração de vídeo como simuladores de mundo
Trabalhamos no treinamento em larga escala de modelos generativos em dados de vídeo. Especificamente, treinamos conjuntamente modelos baseados em difusão condicional de texto para vídeos e imagens de diferentes durações temporais, resoluções e proporções. Empregamos uma arquitetura Transformer que é capaz de lidar com segmentos espaço-temporais potencialmente codificados em vídeos e imagens. Nosso maior modelo, o Sora, gera vídeos de um minuto de alta qualidade. Nossa pesquisa mostra que o dimensionamento de modelos de geração de vídeo é uma etapa promissora para a criação de ferramentas de uso geral capazes de modelar o mundo físico.
Este relatório técnico se concentra em dois aspectos principais: (1) como podemos transformar vários tipos de dados visuais em uma representação unificada para permitir o treinamento em larga escala de modelos generativos; (2) a Sora Avaliação qualitativa dos recursos e limitações do modelo. Informações detalhadas sobre modelagem e implementação não estão incluídas no relatório.
Muitos estudos anteriores exploraram a modelagem de dados de vídeo usando modelos generativos por meio de várias abordagens, inclusive redes recorrentes 1,2,3, redes adversárias generativas 4,5,6,7, transformador autorregressivo 8,9 e modelos de difusão 10,11,12 Esses estudos geralmente se concentraram em classes específicas de dados visuais, vídeos mais curtos ou vídeos de tamanho fixo. um modelo para modelagem generalizada de dados visuais capaz de gerar vídeos e imagens de várias durações, proporções e resoluções, até um minuto de vídeo HD.
Transformação inovadora de dados visuais: técnicas de aplicação de patches
Inspirados pelo sucesso dos modelos de linguagem grande (LLMs) no processamento de dados em escala da Internet e no desenvolvimento de habilidades gerais,13,14 exploramos como vantagens semelhantes poderiam ser aplicadas a modelos generativos de dados visuais. O Large Language Model foi desenvolvido usando tokens -- A tecnologia de processamento de código é uma forma eficiente de unificar o processamento de código, matemática e várias linguagens naturais, permitindo transições intermodais perfeitas. Neste estudo, apresentamos uma contraparte no domínio visual: aremendo(patches). Foi demonstrado que os patches são uma forma eficiente de representação de dados visuais15,16,17,18 e podem aumentar muito a capacidade dos modelos generativos de processar diversos dados de vídeo e imagem.
Especificamente, realizamos a transformação de vídeo em patches primeiro comprimindo os dados de vídeo em um espaço potencial de baixa dimensão19 e, em seguida, decompondo-os em patches espaço-temporais.
rede de compressão de vídeo
Desenvolvemos uma técnica de redução de dimensionalidade,20 que é capaz de processar dados brutos de vídeo e gerar representações latentes que são compactadas no tempo e no espaço. Além disso, desenvolvemos um decodificador capaz de reduzir essas representações latentes a imagens de vídeo em nível de pixel.
tecnologia time-patch
Ao processar a entrada de vídeo compactado, podemos extrair uma série de patches espaço-temporais que desempenham uma função semelhante aos Tokens de Transformador no modelo. É importante observar que esse esquema também é aplicável ao processamento de imagens, pois, essencialmente, uma imagem pode ser considerada como um único quadro de vídeo. Usando uma representação baseada em patches, o Sora é capaz de se adaptar a vídeos e imagens com diferentes resoluções, durações e proporções. Ao gerar um novo conteúdo de vídeo, podemos controlar o tamanho e a forma do vídeo final, organizando esses patches inicializados aleatoriamente em uma grade do tamanho desejado.
Extensão do transformador para geração de vídeo
O Sora é um modelo de difusão21,22,23,24,25 ; ele é capaz de aceitar pedaços de imagens com ruído (e informações condicionais, como dicas textuais) como entrada e é treinado para prever os pedaços de imagens "claras" originais. É importante observar que o Sora é um Transformer difuso, e a tecnologia Transformer demonstrou excelente escalabilidade em vários domínios, incluindo modelagem de linguagem13,14 , visão computacional15,16,17,18 e geração de imagens27,28,29 .
Neste estudo, descobrimos que o Transformer baseado em difusão também é dimensionado de forma eficiente no domínio da modelagem de vídeo. Na seção a seguir, demonstramos a melhoria significativa na qualidade da amostra provocada pelo aumento dos recursos de treinamento, comparando amostras de vídeo sob condições fixas de semente e entrada durante o treinamento.
Diversidade de duração, resolução e proporção do vídeo
Os métodos tradicionais de geração de imagens e vídeos geralmente redimensionam os vídeos para tamanhos padrão, como um vídeo de 4 segundos processado com resolução de 256x256. Descobrimos que o treinamento diretamente no tamanho original do vídeo oferece vários benefícios.
Recursos flexíveis de amostragem
A Sora é capaz de produzir vídeos em vários tamanhos, incluindo 1920x1080p para widescreen, 1080x1920 para retrato e qualquer outro tamanho intermediário. Isso permite que a Sora produza diretamente conteúdo para diferentes dispositivos que correspondam às suas proporções de aspecto nativas. Além disso, nos permite criar rapidamente protótipos de conteúdo em tamanhos menores antes de gerar conteúdo de resolução total, tudo a partir do mesmo modelo.
Otimização da composição e do layout
Nossos experimentos mostram que o treinamento na proporção de aspecto nativa de um vídeo melhora significativamente a qualidade da composição e do layout do vídeo. Comparamos o Sora com outro modelo de treinamento que corta todos os vídeos de treinamento em quadrados, o que é a prática comum ao treinar modelos generativos. O vídeo gerado pelo Sora (lado direito) apresenta melhores resultados de composição do que o modelo cortado em um quadrado (lado esquerdo), onde, às vezes, o tema é mostrado apenas parcialmente. O Sora, por outro lado, é mais capaz de capturar a cena completa.
compreensão do idioma
Para desenvolver sistemas que possam gerar vídeos a partir de texto, precisamos de um grande número de vídeos e suas respectivas descrições de texto. Usamos uma técnica de rotulagem introduzida no DALL-E 330 e a aplicamos aos vídeos. Primeiro, treinamos um modelo capaz de gerar descrições detalhadas e, em seguida, usamos esse modelo para criar descrições textuais para todos os vídeos do conjunto de treinamento. Descobrimos que o treinamento com descrições de vídeo altamente descritivas não só aumenta a precisão do texto, mas também melhora significativamente a qualidade geral dos vídeos.
Assim como no DALL-E 3, também usamos o GPT para converter instruções curtas do usuário em instruções detalhadas, que são então enviadas para o modelo de geração de vídeo. Esse processo permite que a Sora produza vídeos de alta qualidade com base nas instruções do usuário.
Exemplos de habilidades de compreensão de linguagem (clique para expandir)
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots -taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t- shirt-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a -sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
Função Cue para fotos e vídeos
Todos os exemplos e vídeos mostrados em nosso site são convertidos a partir de texto. Entretanto, o Sora também pode aceitar imagens ou vídeos existentes como entrada. Esse recurso permite que o Sora execute uma variedade de tarefas de edição de imagens e vídeos, como a criação de vídeos com looping contínuo, a animação de imagens estáticas, a ampliação do tempo de reprodução de vídeos e muito mais.
Fazendo as imagens de DALL-E se moverem
Com apenas uma imagem e um prompt, a Sora pode criar vídeos. Alguns exemplos de vídeos gerados com base nas imagens do DALL-E 231 e do DALL-E 330 são mostrados abaixo.
Extensão do tempo do vídeo
O Sora também é capaz de estender os vídeos para frente ou para trás. Abaixo estão quatro vídeos que começam com um videoclipe gerado e se estendem para trás. Portanto, embora esses quatro vídeos tenham inícios diferentes, todos eles convergem para o mesmo fim.
Usando essa técnica, conseguimos expandir o vídeo para frente ou para trás, criando o efeito perfeito de loop infinito.
Edição inovadora de vídeo para vídeo
A modelagem de difusão abre novos horizontes para a edição de imagens e vídeos com base em dicas textuais. Em seguida, aplicamos esse modelo à Sora usando uma dessas inovações, o SDEdit32 , uma tecnologia que permite que a Sora altere o estilo e o ambiente de um vídeo sem nenhum exemplo anterior. Essa tecnologia permite que a Sora altere o estilo e o ambiente de um vídeo sem nenhum exemplo anterior.
Transições suaves entre vídeos
Também podemos usar o Sora para conectar suavemente dois vídeos muito diferentes, de modo que eles transitem naturalmente como se fossem um só. No exemplo abaixo, você verá que o vídeo no meio mistura sutilmente elementos dos vídeos da esquerda e da direita.
A criação mágica de imagens
A capacidade do Sora de criar imagens impressionantes não se limita ao vídeo. Fazemos essa mágica organizando blocos de ruído gaussiano em uma grade espacial que tem apenas um quadro de comprimento. Dessa forma, o Sora é capaz de criar imagens de todos os tamanhos, até uma resolução máxima de 2048x2048.
Um retrato em close-up de uma senhora no meio de um dia de outono com detalhes incríveis e uma profundidade de campo surpreendentemente rasa.
Um vibrante recife de coral com peixes coloridos e vida marinha entrando e saindo.
A arte digital de um jovem tigre sob uma macieira mostra a beleza detalhada no estilo de pintura fosca.
Um vilarejo montanhoso coberto de neve, chalés aconchegantes e a aurora boreal se desdobram em detalhes requintados, como se tivessem sido fotografados com uma DSLR com uma lente 50 mm f/1.2.
Recursos emergentes de simulação
Descobrimos que, com o treinamento em larga escala, o modelo de vídeo demonstrou um conjunto convincente de recursos emergentes. Esses recursos dão a Sora a capacidade de simular pessoas, animais e ambientes do mundo real até certo ponto. Esses recursos emergentes não exigem nenhuma preferência pré-determinada específica por espaço 3D, objetos etc. - eles são puramente o resultado da escala dos dados.
Coerência espacial tridimensional. O Sora gera vídeos com mudanças dinâmicas de perspectiva. Conforme a posição e o ângulo da câmera mudam, os personagens e os elementos da cena no vídeo podem se mover de forma coerente no espaço tridimensional.
Continuidade de longo alcance e persistência de objetos. Manter a continuidade temporal ao gerar vídeos longos tem sido um desafio. Observamos que o Sora geralmente é capaz de lidar com dependências de curto e longo alcance de forma eficaz. Por exemplo, nosso modelo é capaz de manter a presença contínua de personagens, animais ou objetos, mesmo que eles sejam ocluídos ou movidos para fora do quadro. Da mesma forma, ele é capaz de mostrar o mesmo personagem várias vezes na mesma amostra de vídeo, garantindo sua aparência durante todo o tempo.
Interação com o mundo. Às vezes, a Sora pode simular comportamentos que simplesmente afetam o estado do mundo. Por exemplo, as pinceladas que um pintor deixa em uma tela persistem com o tempo ou as marcas de mordida deixadas por alguém que come um hambúrguer.
Analógico do mundo digital. O Sora também pode simular processos digitais, como videogames. Ele pode renderizar o mundo do jogo e sua dinâmica em alta qualidade enquanto controla o personagem do jogo Minecraft em operações básicas. Esses recursos podem ser acionados simplesmente mencionando a palavra "Minecraft" como uma sugestão.
Esses recursos demonstram que a escala cada vez maior da modelagem de vídeo é um caminho promissor para o desenvolvimento de simuladores avançados capazes de simular altamente o mundo físico e digital, incluindo objetos, animais e pessoas.
conversar
Como simulador, o Sora atualmente tem muitas limitações. Por exemplo, ele não consegue simular com precisão interações físicas básicas, como quebrar vidros. Algumas interações, como comer, nem sempre refletem corretamente as alterações no estado de um objeto. Estamos trabalhando noPágina de introdução da OpenAI SoraOutras falhas comuns do modelo são detalhadas, incluindo problemas como inconsistências em amostras longas de vídeo ou o aparecimento repentino de objetos.
Acreditamos que os recursos existentes da Sora demonstram que continuar a dimensionar o modelo de vídeo é um caminho promissor para o desenvolvimento de simuladores avançados capazes de modelar com precisão os mundos físico e digital, bem como os objetos, animais e seres humanos dentro deles.
Referências
-
Srivastava, Nitish, Elman Mansimov e Ruslan Salakhudinov. "Aprendizagem não supervisionada de representações de vídeo usando lstms." conferência internacional sobre aprendizado de máquina. pmlr, 2015.
-
Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).
-
Ha, David, e Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).
-
Vondrick, Carl, Hamed Pirsiavash e Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems 29 (2016).
-
Tulyakov, Sergey, et al. "Mocogan: Decomposição de movimento e conteúdo para geração de vídeo." Anais da conferência do IEEE sobre visão computacional e reconhecimento de padrões. 2018.
-
Clark, Aidan, Jeff Donahue e Karen Simonyan. "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).
-
Brooks, Tim, et al. "Generating long videos of dynamic scenes." Advances in Neural Information Processing Systems 35 (2022): 31769-31781.
-
Yan, Wilson, et al. "Videogpt: video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).
-
Wu, Chenfei, et al. "Nüwa: Pré-treinamento de síntese visual para criação de mundo visual neural." Conferência europeia sobre visão computacional. Cham: Springer Cham: Springer Switzerland, 2022.
-
Ho, Jonathan, et al. "Imagen video: geração de vídeo de alta definição com modelos de difusão". arXiv preprint arXiv:2210.02303 (2022).
-
Blattmann, Andreas, et al. "Align your latents: high-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conferência sobre Visão Computacional e Reconhecimento de Padrões. 2023.
-
Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).
-
Vaswani, Ashish, et al. "Attention is all you need" (Atenção é tudo o que você precisa). Avanços nos sistemas de processamento de informações neurais 30 (2017).
-
Brown, Tom, et al. "Language models are few-shot learners." Avanços nos sistemas de processamento de informações neurais 33 (2020): 1877-1901.
-
Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: transformers for image recognition at scale" (Uma imagem vale 16x16 palavras: transformadores para reconhecimento de imagens em escala). arXiv preprint arXiv:2010.11929 (2020).
-
Arnab, Anurag, et al. "Vivit: A video vision transformer." Anais da conferência internacional IEEE/CVF sobre visão computacional. 2021.
-
He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Anais da conferência IEEE/CVF sobre visão computacional e reconhecimento de padrões. 2022.
-
Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution". arXiv preprint arXiv:2307.06304 (2023).
-
Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models" (Síntese de imagens de alta resolução com modelos de difusão latente). Anais da conferência IEEE/CVF sobre visão computacional e reconhecimento de padrões. 2022.
-
Kingma, Diederik P. e Max Welling. "Auto-encoding variational bayes". arXiv preprint arXiv:1312.6114 (2013).
-
Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." Conferência internacional sobre aprendizado de máquina. PMLR, 2015.
-
Ho, Jonathan, Ajay Jain e Pieter Abbeel. "Denoising diffusion probabilistic models." Avanços nos sistemas de processamento de informações neurais 33 (2020): 6840-6851.
-
Nichol, Alexander Quinn e Prafulla Dhariwal. "Improved denoising diffusion probabilistic models." Conferência Internacional sobre Aprendizado de Máquina. PMLR, 2021.
-
Dhariwal, Prafulla e Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis." Avanços em sistemas de processamento de informações neurais. 2021.
-
Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models." Avanços em sistemas de processamento de informações neurais 35 (2022): 26565-26577.
-
Peebles, William e Saining Xie. "Scalable diffusion models with transformers" (Modelos de difusão escalonáveis com transformadores). Anais da Conferência Internacional IEEE/CVF sobre Visão Computacional. 2023.
-
Chen, Mark, et al. "Pré-treinamento generativo a partir de pixels". Conferência internacional sobre aprendizado de máquina. PMLR, 2020.
-
Ramesh, Aditya, et al. "Zero-shot text-to-image generation." Conferência Internacional sobre Aprendizado de Máquina. PMLR, 2021.
-
Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation." arXiv preprint arXiv:2206.10789 2.3 (2022): 5.
-
Betker, James, et al. "Improving image generation with better captions" (Melhorando a geração de imagens com legendas melhores). Ciência da Computação. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8
-
Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 1.2 (2022): 3.
-
Meng, Chenlin, et al. "Sdedit: síntese e edição de imagens guiadas com equações diferenciais estocásticas". arXiv preprint arXiv:2108.01073 (2021).
Autores
- Tim Brooks
- Bill Peebles
- Connor Holmes
- Will DePue
- Yufei Guo
- Li Jing
- David Schnurr
- Joe Taylor
- Troy Luhman
- Eric Luhman
- Clarence Wing Yin Ng
- Ricky Wang
- Aditya Ramesh
Agradecimentos
Citação
Por favor, cite como OpenAI et al., e use o seguinte texto para citação. https://openai.com/bibtex/videoworldsimulators2024.bib