Sora video generation model: a simulator for building virtual worlds [traducido].
Base de conocimientos de IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial 11.6K 00
Texto original:Modelos de generación de vídeo como simuladores del mundo
Trabajamos en el entrenamiento a gran escala de modelos generativos sobre datos de vídeo. En concreto, entrenamos conjuntamente modelos basados en la difusión condicional de texto para vídeos e imágenes de diferentes duraciones, resoluciones y relaciones de aspecto. Empleamos un Transformador una arquitectura capaz de manejar segmentos espacio-temporales potencialmente codificados en vídeo e imágenes. Nuestro mayor modelo, Sora, genera vídeos de un minuto de alta calidad. Nuestra investigación demuestra que la ampliación de los modelos de generación de vídeo es un paso prometedor hacia la creación de herramientas de uso general capaces de simular el mundo físico.
Este informe técnico se centra en dos aspectos principales: (1) cómo podemos transformar varios tipos de datos visuales en una representación unificada para permitir el entrenamiento a gran escala de modelos generativos; (2) la Sora Evaluación cualitativa de las capacidades y limitaciones del modelo. El informe no incluye información detallada sobre la modelización y la aplicación.
Muchos estudios anteriores han explorado el modelado de datos de vídeo mediante modelos generativos que utilizan una variedad de enfoques, incluidas las redes recurrentes 1,2,3, las redes generativas adversariales 4,5,6,7, los transformadores autorregresivos 8,9 y los modelos de difusión 10,11,12. Estos estudios se han centrado normalmente en clases específicas de datos visuales, vídeos más cortos o vídeos de tamaño fijo.Sora es un modelo de modelización generalizada de datos visuales capaz de generar vídeos e imágenes de distintas duraciones, relaciones de aspecto y resoluciones, hasta un minuto de vídeo HD.
Transformación innovadora de datos visuales: técnicas de parcheado
Inspirados por el éxito de los modelos de lenguaje de gran tamaño (LLM) en el procesamiento de datos a escala de Internet y el desarrollo de habilidades globales,13,14 exploramos cómo podrían aplicarse ventajas similares a los modelos generativos de datos visuales. El Large Language Model se desarrolló utilizando fichas -- una forma eficiente de unificar el procesamiento de código, matemáticas y múltiples lenguajes naturales -- permitiendo transiciones intermodales sin fisuras. En este estudio, introducimos una contrapartida en el ámbito visual: visualparche(parches). Se ha demostrado que los parches son una forma eficaz de representación de datos visuales,15,16,17,18 y pueden mejorar enormemente la capacidad de los modelos generativos para procesar diversos datos de vídeo e imágenes.
![Sora视频生成模型:构建虚拟世界的模拟器 [译]-1 Sora视频生成模型:构建虚拟世界的模拟器 [译]](https://aisharenet.com/wp-content/uploads/2024/02/b29cc0bf0bfa1d3.png)
Concretamente, logramos la transformación de vídeo a parches comprimiendo primero los datos de vídeo en un espacio potencial de baja dimensión,19 y descomponiéndolos después en parches espaciotemporales.
red de compresión de vídeo
Hemos desarrollado una técnica de reducción dimensional,20 capaz de procesar datos de vídeo en bruto y generar representaciones latentes comprimidas en el tiempo y en el espacio.Sora se entrena en este espacio latente comprimido y es capaz de generar nuevos contenidos de vídeo. Además, hemos desarrollado un descodificador capaz de reducir estas representaciones latentes a imágenes de vídeo a nivel de píxel.
tecnología time-patch
Al procesar la entrada de vídeo comprimido, podemos extraer una serie de parches espaciotemporales que desempeñan un papel similar al de los Transformer Tokens en el modelo. Cabe señalar que este esquema también es aplicable al tratamiento de imágenes, ya que, en esencia, una imagen puede considerarse como un único fotograma de vídeo. Utilizando una representación basada en parches, Sora es capaz de adaptarse a vídeos e imágenes con diferentes resoluciones, duraciones y relaciones de aspecto. Al generar nuevos contenidos de vídeo, podemos controlar el tamaño y la forma del vídeo final organizando estos parches inicializados aleatoriamente en una cuadrícula del tamaño deseado.
Extensión del transformador para la generación de vídeo
Sora es un modelo de difusión21,22,23,24,25 ; es capaz de aceptar trozos de imagen ruidosos (e información condicional como pistas textuales) como entrada, y está entrenado para predecir los trozos de imagen "claros" originales. Cabe señalar que Sora es un Transformer difuso, y la tecnología Transformer ha demostrado una excelente escalabilidad en diversos ámbitos, como el modelado del lenguaje13,14 , la visión por ordenador15,16,17,18 y la generación de imágenes27,28,29 .
![Sora视频生成模型:构建虚拟世界的模拟器 [译]-2 Sora视频生成模型:构建虚拟世界的模拟器 [译]](https://aisharenet.com/wp-content/uploads/2024/02/fe2e6c807458af3.png)
En este estudio, descubrimos que el Transformer basado en difusión también se escala eficientemente en el dominio del modelado de vídeo. En la siguiente sección, demostramos la mejora significativa en la calidad de las muestras que conlleva el aumento de los recursos de entrenamiento comparando muestras de vídeo bajo condiciones fijas de semilla y entrada durante el entrenamiento.
cálculo básico
Cálculo cuádruple
Cálculo de 16 veces
Diversidad de duración, resolución y relación de aspecto del vídeo
Los métodos tradicionales de generación de imágenes y vídeos suelen redimensionar los vídeos a tamaños estándar, como un vídeo de 4 segundos de duración procesado a una resolución de 256x256. Hemos descubierto que entrenar directamente con el tamaño original del vídeo ofrece múltiples ventajas.
Capacidad de muestreo flexible
Sora es capaz de producir vídeo en una variedad de tamaños, incluyendo 1920x1080p para pantalla panorámica, 1080x1920 para retrato, y cualquier cosa intermedia. Esto permite a Sora producir directamente contenidos para diferentes dispositivos que se ajustan a sus relaciones de aspecto nativas. Además, nos permite crear rápidamente prototipos de contenidos en tamaños inferiores antes de generar contenidos a resolución completa, todo a partir del mismo modelo.
Optimización de la composición y el diseño
Nuestros experimentos demuestran que el entrenamiento en la relación de aspecto nativa de un vídeo mejora significativamente la calidad de la composición y el diseño del vídeo. Comparamos Sora con otro modelo de entrenamiento que recorta todos los vídeos de entrenamiento a cuadrados, que es la práctica habitual cuando se entrenan modelos generativos. El vídeo generado por Sora (lado derecho) muestra mejores resultados compositivos que el modelo recortado a un cuadrado (lado izquierdo), en el que a veces el sujeto sólo se muestra parcialmente. En cambio, Sora capta mejor la escena completa.
comprensión lingüística
Para desarrollar sistemas capaces de generar vídeos a partir de texto, necesitamos un gran número de vídeos y sus correspondientes descripciones textuales. Utilizamos una técnica de reetiquetado introducida en DALL-E 330 y la aplicamos a los vídeos. En primer lugar, entrenamos un modelo capaz de generar descripciones detalladas y, a continuación, utilizamos este modelo para crear descripciones textuales para todos los vídeos del conjunto de entrenamiento. Comprobamos que el entrenamiento con descripciones de vídeo muy descriptivas no sólo mejora la precisión del texto, sino que también mejora significativamente la calidad general de los vídeos.
Al igual que en DALL-E 3, también utilizamos GPT para convertir breves indicaciones del usuario en instrucciones detalladas, que luego se envían al modelo de generación de vídeo. Este proceso permite a Sora producir vídeos de alta calidad basados en las instrucciones del usuario.
Ejemplos de destrezas de comprensión lingüística (pulse para ampliar)
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- dando un agradable paseo por Mumbai, India, durante una hermosa puesta de sol.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Mumbai-India-during- una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing- blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width= "640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant -paseo por Johanesburgo (Sudáfrica) durante una hermosa puesta de sol.mp4[/videopack][videopack width="640" height="360" downloadlink="true" https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa -durante una tormenta de invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman- con unos vaqueros azules y una camiseta blanca dando un agradable paseo por Johannesburgo (Sudáfrica) durante un colorido festival.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white -t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Antártida-durante-una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/ a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Antarctica-during-a-colourful-festival.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- un agradable paseo por Mumbai (India) durante una hermosa puesta de sol.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Mumbai-India-during-a- tormenta-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a- vestido-verde-y-sombrero-de-sol-dando-un-paseo-agradable-en-mumbai-india-durante-un-festival-de-color.mp4[/videopack][videopack width="640" height="true height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll- en-Johannesburgo-Sudáfrica-durante-una-hermosa-puesta-de-sol.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:/ /cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a- tormenta invernal.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a- vestido-verde-y-un-sombrero-de-sol-dando-un-agradable-paseo-en-Johannesburgo-Sudáfrica-durante-un-festival-de-color.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- un agradable paseo por la Antártida durante una hermosa puesta de sol.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Antarctica-during-a- tormenta-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a- vestido-verde-y-un-sombrero-de-sol-dando-un-agradable-paseo-en-la-Antártida-durante-un-festival-de-color.mp4[/videopack][videopack width="640" height="360 height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant- stroll-in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm. mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls- y-bota-vaquera-dando-un-agradable-paseo-en-mumbai-india-durante-un-festival-de-color.mp4[/videopack][videopack width="640" height=" 360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Johannesburgo-Sudáfrica-durante-una-hermosa-puesta-de-sol.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing- el mono morado y las botas de vaquero dan un agradable paseo por johannesburgo (sudáfrica) durante un festival lleno de color.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots- un agradable paseo por la Antártida durante una hermosa puesta de sol.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Antarctica-during- una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing- el mono morado y las botas de vaquero: un agradable paseo por la antartida durante un colorido festival.mp4[/videopack][videopack width= "640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a- agradable-pasear-en-Mumbai-India-durante-una-hermosa-puesta-de-sol.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Mumbai-India-during-a- tormenta-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/an-old-man-wearing- blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width= "640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a- agradable-pasear-en-Johannesburgo-Sudáfrica-durante-una-hermosa-puesta-de-sol.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Johannesburgo-Sudáfrica-durante-una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/un-hombre-viejo-con-vaqueros-azules-y-camisa-blanca-dando-un-agradable-paseo-en-johannesburgo-Sudáfrica-durante-un colorful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man- Vaqueros azules y camiseta blanca: un agradable paseo por la Antártida durante una hermosa puesta de sol.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a -un paseo agradable por la Antártida durante una tormenta de invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/un-viejo-vistiendo-jeans-azules-y-camisa-blanca-dando-un-agradable-paseo-en-la-antártida-durante-un-coloreado- festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a- vestido-verde-y-un-sombrero-de-sol-dando-un-agradable-paseo-en-mumbai-india-durante-una-hermosa-puesta-de-sol.mp4[/videopack][videopack width="640" height= height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant- paseo por Mumbai (India) durante una tormenta de invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/un-hombre-viejo-con-un-vestido-verde-y-un-sombrero-de-sol-dando-un-placentero-pasear-en-mumbai-india-durante-un-colorido- festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a- vestido-verde-y-sombrero-de-sol-dando-un-paseo-agradable-en-Johannesburgo-Sudáfrica-durante-una-hermosa-puesta-de-sol.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- un agradable paseo por Johannesburgo (Sudáfrica) durante una tormenta de invierno.mp4[/videopack][videopack width="640" height="360"][videopack="true"]downloadlink="true"]downloadlink="true"[/videopack downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in- Johannesburgo-Sudáfrica-durante-un-festival-de-color.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/un-viejo-vestido-de-un-vestido-verde-y-un-sombrero-de-sol-dando-un-agradable-paseo-en-la-Antártida-durante-una-bonita- sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green vestido-y-un-sombrero-de-sol-dando-un-agradable-paseo-en-antártida-durante-una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360"][videopack="true"]downloadlink="true"[/videopack downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in- Antártida-durante-un-festival-de-color.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/ tmp/s/un-viejo-con-pantalones-morados-y-botas-de-vaquero-dando-un-agradable-paseo-en-mumbai-india-durante-una-hermosa-puesta-de-sol.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Mumbai-India-durante-un-festival-de-color.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com /tmp/s/un-hombre-viejo-con-pantalones-morados-y-botas-de-vaquero-dando-un-agradable-paseo-en-johannesburgo-sudáfrica-durante-una-hermosa-puesta-de-sol. beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man- con un mono morado y botas de vaquero dando un agradable paseo por Johannesburgo (Sudáfrica) durante una tormenta de invierno.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-colourful-festival.mp4[/ videopack][videopack width="640 " height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a- agradable paseo por la Antártida durante una hermosa puesta de sol.mp4[/videopack][videopack width="640 " height="360" downloadlink="true"]https. //cdn.openai.com/tmp/s/un-hombre-viejo-que-lleva-un-pantalón-morado-y-botitas-de-vaquero-dando-un-agradable-pasear-en-antártida-durante-una-tormenta-de-invierno. tormenta.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple- monos y botas de vaquero: un agradable paseo por la Antártida durante un festival de colores.mp4[/videopack][videopack width="640" height= height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant- stroll-in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm .mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans- y-una-camisa-blanca-dando-un-paseo-agradable-en-mumbai-india-durante-un-festival-de-color.mp4[/videopack][videopack width="640" height ="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll -en-Johannesburgo-Sudáfrica-durante-una-hermosa-puesta-de-sol.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https. //cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa- durante-una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot -con unos vaqueros azules y una camiseta blanca dando un agradable paseo por johannesburgo-sudáfrica durante un festival lleno de color.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a- camiseta-blanca-dando-un-agradable-paseo-en-la-antártida-durante-una-hermosa-puesta-de-sol.mp4[/videopack][videopack width="640" height="360"][videopack="true"]downloadlink="true"]downloadlink="true"]downloadlink="true"[/videopack downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Antártida-durante-una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/ a-toy-robot-vistiendo-vaqueros-azules-y-camisa-blanca-dando-un-agradable-paseo-en-antártida-durante-un-festival-de-color.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and- a-sun-hat-taking-a-pleasant-stroll-in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in- Mumbai-India-durante-una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/ s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Mumbai-India-during-a-colourful-festival.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and- a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/ videopack][videopack width="640"[360 height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant- paseo en johannesburgo-sudáfrica durante una tormenta de invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] [/videopack https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa -durante un festival lleno de color.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy -robot-con-vestido-verde-y-sombrero-de-sol-dando-un-agradable-paseo-en-la-antártida-durante-una-hermosa-puesta-de-sol.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- un agradable paseo por la antártida durante una tormenta de invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Antarctica-during-a- colorido-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy-robot- con un mono morado y botas de vaquero, dando un agradable paseo por Mumbai (India) durante una hermosa puesta de sol.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink= "true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Mumbai-India- durante un festival lleno de color.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy- robot con mono morado y botas de vaquero dando un agradable paseo por Johannesburgo (Sudáfrica) durante una hermosa puesta de sol.mp4 [/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls- y-bota-vaquera-dando-un-agradable-paseo-en-johannesburgo-sudáfrica-durante-una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a- agradable-pasear-en-Johannesburgo-Sudáfrica-durante-un-festival-de-color.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Antarctica-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/ tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls- y-bota-vaquera-dando-un-agradable-paseo-en-antártida-durante-un-festival-de-color.mp4[/videopack][videopack width="640" height="360 " downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant- stroll-in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a- tormenta-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo -vistiendo vaqueros azules y una camiseta blanca dando un agradable paseo por Mumbai (India) durante un colorido festival.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- camiseta-blanca-dando-un-agradable-paseo-en-Johannesburgo-Sudáfrica-durante-una-hermosa-puesta-de-sol.mp4[/videopack][videopack width="640" height="360" downloadlink="true height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a- agradable-pasear-en-Johannesburgo-Sudáfrica-durante-una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Johannesburgo-Sudáfrica-durante-un-festival-de-color.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a- beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable- canguro-con-vaqueros-azules-y-camisa-blanca-dando-un-agradable-paseo-en-la-antártida-durante-una-tormenta-de-invierno.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- camiseta-blanca-dando-un-agradable-paseo-en-la-Antártida-durante-un-festival-de-color.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll -en-Mumbai-India-durante-una-hermosa-puesta-de-sol.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai. com/tmp/s/un-adorable-canguro-con-vestido-verde-y-sombrero-de-sol-dando-un-agradable-paseo-en-mumbai-india-durante-una-tormenta-de-invierno. mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a- el vestido-verde-y-un-sombrero-de-sol-dando-un-paseo-agradable-en-mumbai-india-durante-un-festival-de-color.mp4[/videopack][videopack width="640"[360 height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a- agradable-pasear-en-Johannesburgo-Sudáfrica-durante-una-hermosa-puesta-de-sol.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll -en-Johannesburgo-Sudáfrica-durante-una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South- Africa-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s /un-adorable-canguro-con-vestido-verde-y-sombrero-de-sol-dando-un-agradable-paseo-en-antártida-durante-una-hermosa-puesta-de-sol.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green- vestido-y-un-sombrero-tomando-un-paseo-agradable-en-antártida-durante-una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll -en la Antártida durante un festival lleno de color.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai. com/tmp/s/un-adorable-canguro-con-pantalón-morado-y-botas-de-vaquero-dando-un-agradable-paseo-en-mumbai-india-durante-una-hermosa-puesta-de-sol. beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable- canguro con mono morado y botas de vaquero dando un agradable paseo por Mumbai (India) durante una tormenta de invierno.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and- cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant- paseo por johannesburgo-sudáfrica durante una hermosa puesta de sol.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Johannesburgo-Sudáfrica-durante-una-tormenta-de-invierno.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn. openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South- Africa-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s /Un adorable canguro con un mono morado y botas de vaquero dando un agradable paseo por la Antártida durante una hermosa puesta de sol. mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing- el mono morado y las botas de vaquero en un agradable paseo por la antartida durante una tormenta de invierno.mp4[/videopack][videopack
Función Cue para imágenes y vídeos
Todos los ejemplos y vídeos mostrados en nuestro sitio web se convierten a partir de texto. Sin embargo, Sora también puede aceptar imágenes o vídeos existentes como entrada. Esta función permite a Sora realizar diversas tareas de edición de imágenes y vídeos, como crear vídeos en bucle sin interrupciones, animar imágenes fijas, ampliar el tiempo de reproducción de los vídeos, etc.
Las imágenes de DALL-E se mueven
Con sólo una imagen y una indicación, Sora puede crear vídeos. A continuación se muestran algunos ejemplos de vídeos generados a partir de imágenes de DALL-E 231 y DALL-E 330.
![Sora视频生成模型:构建虚拟世界的模拟器 [译]-3 Sora视频生成模型:构建虚拟世界的模拟器 [译]](https://aisharenet.com/wp-content/uploads/2024/02/efe89abab5279a5.jpg)
Un Shiba Inu con boina y cuello alto negro.
![Sora视频生成模型:构建虚拟世界的模拟器 [译]-4 Sora视频生成模型:构建虚拟世界的模拟器 [译]](https://aisharenet.com/wp-content/uploads/2024/02/874e3e8370a9db8.jpg)
Ilustración de estilo de diseño gráfico de una familia que contiene varios monstruos. Hay un monstruo marrón peludo, un monstruo negro elegante completo con tentáculos, un monstruo verde manchado, y un pequeño monstruo con lunares que interactúan en un ambiente agradable.
![Sora视频生成模型:构建虚拟世界的模拟器 [译]-5 Sora视频生成模型:构建虚拟世界的模拟器 [译]](https://aisharenet.com/wp-content/uploads/2024/02/8c7e5abffdb9783.jpg)
Forma imágenes de nubes realistas con la palabra "SORA".
![Sora视频生成模型:构建虚拟世界的模拟器 [译]-1 Sora视频生成模型:构建虚拟世界的模拟器 [译]](https://aisharenet.com/wp-content/uploads/2024/02/fd5e460b1d1fbbd.jpg)
En una sala histórica ornamentada, una enorme ola está a punto de estrellarse. Dos surfistas aprovechan la oportunidad para cabalgar la ola con destreza.
Video Time Stretch
Sora también es capaz de extender vídeos hacia delante o hacia atrás. A continuación se muestran cuatro vídeos que comienzan con un clip de vídeo generado y se extienden hacia atrás. Así, aunque estos cuatro vídeos tienen diferentes comienzos, todos convergen en el mismo final.
Con esta técnica, pudimos ampliar el vídeo hacia delante o hacia atrás, creando el perfecto efecto de bucle infinito.
Edición innovadora de vídeo a vídeo
El modelado por difusión abre nuevos horizontes a la edición de imágenes y vídeos basada en pistas textuales. A continuación, lo aplicamos a Sora utilizando una de estas innovaciones, SDEdit,32 una tecnología que faculta a Sora para cambiar el estilo y el entorno de un vídeo sin ningún ejemplo previo. Esta tecnología faculta a Sora para cambiar el estilo y el entorno de un vídeo sin ningún ejemplo previo.
Entrada Vídeo
Cambia la configuración a Selva exuberante.
Cambia la configuración a 1920 y utiliza el captureRejectionSymbol de la vieja escuela. asegúrate de que se mantiene en rojo.
Hazlo bajo el agua.
¿Cambiar la configuración del vídeo a una escena diferente a las montañas? ¿Quizá el Joshua Tree?
Coloca el vídeo en el espacio con una trayectoria arco iris.
Mantén el vídeo igual pero hazlo invernal.
Realizado en arcilla estilo animación.
Vuélvelo a crear con un estilo de dibujo a carboncillo, asegurándote de que sea en blanco y negro.
Cambia la configuración a Cyberpunk.
Cambia el vídeo a un tema medieval.
Que tenga dinosaurios.
Reescribe el vídeo en estilo pixel art.
Transiciones fluidas entre vídeos
También podemos utilizar Sora para conectar suavemente dos vídeos muy diferentes de forma que transicionen naturalmente como si fueran uno solo. En el ejemplo siguiente, verás que el vídeo del centro mezcla sutilmente elementos de los vídeos izquierdo y derecho.
La mágica creación de imágenes
La capacidad de Sora para crear imágenes asombrosas no se limita al vídeo. Hacemos esta magia disponiendo bloques de ruido gaussiano en una rejilla espacial de sólo un fotograma de longitud. De este modo, Sora es capaz de crear imágenes de todos los tamaños, hasta una resolución máxima de 2048x2048.
![Sora视频生成模型:构建虚拟世界的模拟器 [译]-2 Sora视频生成模型:构建虚拟世界的模拟器 [译]](https://aisharenet.com/wp-content/uploads/2024/02/6137d73841ff27d.jpg)
Un retrato en primer plano de una dama en pleno día de otoño con un detalle asombroso y una profundidad de campo sorprendentemente baja.
![Sora视频生成模型:构建虚拟世界的模拟器 [译]-3 Sora视频生成模型:构建虚拟世界的模拟器 [译]](https://aisharenet.com/wp-content/uploads/2024/02/1720a8d3e5bb47d.png)
Un vibrante arrecife de coral con peces de colores y vida marina que entra y sale.
![Sora视频生成模型:构建虚拟世界的模拟器 [译]-4 Sora视频生成模型:构建虚拟世界的模拟器 [译]](https://aisharenet.com/wp-content/uploads/2024/02/1195a7f8979edc6.png)
La ilustración digital de un joven tigre bajo un manzano muestra la belleza detallada en el estilo de pintura mate.
![Sora视频生成模型:构建虚拟世界的模拟器 [译]-5 Sora视频生成模型:构建虚拟世界的模拟器 [译]](https://aisharenet.com/wp-content/uploads/2024/02/c5581cd32014278.png)
Un pueblo de montaña cubierto de nieve, acogedoras cabañas y la aurora boreal se despliegan con exquisito detalle, como si se hubieran fotografiado con una dslr con un objetivo 50 mm f/1,2.
Nuevas capacidades de simulación
Hemos comprobado que, con un entrenamiento a gran escala, el modelo de vídeo demuestra un conjunto convincente de capacidades emergentes. Estas capacidades permiten a Sora simular hasta cierto punto personas, animales y entornos del mundo real. Estas capacidades emergentes no requieren ninguna preferencia específica predeterminada por el espacio 3D, los objetos, etc., sino que son el resultado de la escala de los datos.
Coherencia espacial tridimensional. Sora genera vídeos con cambios dinámicos de perspectiva. A medida que cambian la posición y el ángulo de la cámara, los personajes y los elementos de la escena del vídeo son capaces de moverse coherentemente en el espacio tridimensional.
Continuidad a largo plazo y persistencia de objetos. Mantener la continuidad temporal al generar vídeos largos ha sido todo un reto. Hemos observado que Sora suele ser capaz de manejar eficazmente las dependencias de corto y largo alcance. Por ejemplo, nuestro modelo es capaz de mantener la presencia continua de personajes, animales u objetos aunque estén ocluidos o se hayan movido fuera del cuadro. Del mismo modo, es capaz de mostrar el mismo personaje varias veces en la misma muestra de vídeo, garantizando su aparición en todo momento.
Interacción con el mundo. En ocasiones, Sora puede simular comportamientos que simplemente afectan al estado del mundo. Por ejemplo, las pinceladas que un pintor deja en un lienzo persisten en el tiempo, o las marcas de mordiscos que deja alguien al comerse una hamburguesa.
Analógico del mundo digital. Sora también puede simular procesos digitales como los videojuegos. Puede renderizar el mundo del juego y su dinámica en alta calidad mientras controla al personaje del juego Minecraft en operaciones básicas. Estas funciones pueden activarse con solo mencionar la palabra "Minecraft".
Estas características demuestran que la escala cada vez mayor del modelado de vídeo es una vía prometedora hacia el desarrollo de simuladores avanzados capaces de simular al máximo tanto el mundo físico como el digital, incluidos los objetos, los animales y las personas que lo habitan.
conversar
Como simulador, Sora tiene actualmente muchas limitaciones. Por ejemplo, no puede simular con precisión interacciones físicas básicas como la rotura de cristales. Algunas interacciones, como comer, no siempre reflejan correctamente los cambios de estado de un objeto. Hemos estado trabajando en elPágina de presentación de OpenAI SoraEn él se detallan otros fallos habituales del modelo, entre ellos problemas como las incoherencias en muestras de vídeo largas o la aparición repentina de objetos.
Creemos que las capacidades actuales de Sora demuestran que seguir ampliando el modelo de vídeo es una vía prometedora hacia el desarrollo de simuladores avanzados capaces de modelar con precisión los mundos físico y digital, y los objetos, animales y seres humanos que los componen.
Referencias
Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." international conference on machine learning. pmlr, 2015.
Chiappa, Silvia, et al. "Simuladores de entornos recurrentes" arXiv preprint arXiv:1704.02254 (2017).
Ha, David, y Jürgen Schmidhuber. "World models". arXiv preprint arXiv:1803.10122 (2018).
Vondrick, Carl, Hamed Pirsiavash, y Antonio Torralba. "Generating videos with scene dynamics. "Advances in neural information processing systems. 29 (2016).
Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation" Actas de la conferencia IEEE sobre ordenador visión y reconocimiento de patrones. 2018.
Clark, Aidan, Jeff Donahue y Karen Simonyan. "Adversarial video generation on complex datasets" arXiv preprint arXiv:1907.06571 (2019).
Brooks, Tim, et al. "Generating long videos of dynamic scenes" Advances in Neural Information Processing Systems 35 (2022): 31769-31781.
Yan, Wilson, et al. "Videogpt: video generation using vq-vae and transformers" arXiv preprint arXiv:2104.10157 (2021).
Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation" (Nüwa: preentrenamiento de síntesis visual para la creación de mundos visuales neuronales) European conference on computer vision. Cham: Springer Cham: Springer Suiza, 2022.
Ho, Jonathan, et al. "Imagen video: generación de vídeo de alta definición con modelos de difusión". arXiv preprint arXiv:2210.02303 (2022).
Blattmann, Andreas, et al. "Align your latents: high-resolution video synthesis with latent diffusion models" Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
Gupta, Agrim, et al. "Photorealistic video generation with diffusion models" arXiv preprint arXiv:2312.06662 (2023).
Vaswani, Ashish, et al. "La atención es todo lo que necesitas". Avances en los sistemas de procesamiento neural de la información 30 (2017).
Brown, Tom, et al. "Los modelos lingüísticos aprenden poco". Avances en los sistemas de procesamiento neural de la información 33 (2020): 1877-1901.
Dosovitskiy, Alexey, et al. "Una imagen vale más que 16x16 palabras: transformadores para el reconocimiento de imágenes a escala". arXiv preprint arXiv:2010.11929 (2020).
Arnab, Anurag, et al. "Vivit: Un transformador de visión de vídeo". Actas de la conferencia internacional IEEE/CVF sobre visión por ordenador. 2021.
He, Kaiming, et al. "Masked autoencoders are scalable vision learners". Actas de la conferencia IEEE/CVF sobre visión por ordenador y reconocimiento de patrones. 2022.
Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, un transformador de visión para cualquier relación de aspecto y resolución". arXiv preprint arXiv:2307.06304 (2023).
Rombach, Robin, et al. "Síntesis de imágenes de alta resolución con modelos de difusión latente". Actas de la conferencia IEEE/CVF sobre visión por ordenador y reconocimiento de patrones. 2022.
Kingma, Diederik P., y Max Welling. "Bayas variacionales de autocodificación". arXiv preprint arXiv:1312.6114 (2013).
Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics". Conferencia internacional sobre aprendizaje automático. PMLR, 2015.
Ho, Jonathan, Ajay Jain y Pieter Abbeel: "Denoising diffusion probabilistic models". Avances en los sistemas de procesamiento neural de la información 33 (2020): 6840-6851.
Nichol, Alexander Quinn y Prafulla Dhariwal: "Improved denoising diffusion probabilistic models". Conferencia Internacional sobre Aprendizaje Automático. PMLR, 2021.
Dhariwal, Prafulla, y Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis". Avances en sistemas de procesamiento neuronal de la información. 2021.
Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models". Avances en sistemas de procesamiento neuronal de la información 35 (2022): 26565-26577.
Peebles, William, y Saining Xie. "Modelos de difusión escalables con transformadores". Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Ordenador. 2023.
Chen, Mark, et al. "Preentrenamiento generativo a partir de píxeles". Conferencia internacional sobre aprendizaje automático. PMLR, 2020.
Ramesh, Aditya, et al. "Zero-shot text-to-image generation". Conferencia Internacional sobre Aprendizaje Automático. PMLR, 2021.
Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation". arXiv preprint arXiv:2206.10789 2.3 (2022): 5.
Betker, James, et al. "Mejorar la generación de imágenes con mejores pies de foto". Informática. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8
Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents". arXiv preprint arXiv:2204.06125 1.2 (2022): 3.
Meng, Chenlin, et al. "Sdedit: síntesis y edición guiadas de imágenes con ecuaciones diferenciales estocásticas". arXiv preprint arXiv:2108.01073 (2021).
Autores
- Tim Brooks
- Bill Peebles
- Connor Holmes
- Will DePue
- Yufei Guo
- Li Jing
- David Schnurr
- Joe Taylor
- Troy Luhman
- Eric Luhman
- Clarence Wing Yin Ng
- Ricky Wang
- Aditya Ramesh
Agradecimientos
Cita
Por favor, cite como OpenAI et al., y utilice el siguiente bibtex para la citación. https://openai.com/bibtex/videoworldsimulators2024.bib
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...