Модель генерации видео Sora: симулятор для создания виртуальных миров [перевод].

Оригинальный текст:Модели генерации видео как симуляторы мира

 

Мы работаем над масштабным обучением генеративных моделей на видеоданных. В частности, мы совместно обучаем текстово-условные диффузионные модели для видео и изображений различной длительности, разрешения и соотношения сторон. Мы используем Трансформатор архитектура, способная обрабатывать пространственно-временные сегменты, потенциально закодированные в видео и изображениях. Наша самая крупная модель, Sora, генерирует высококачественные одноминутные видеоролики. Наше исследование показывает, что масштабирование моделей генерации видео - это многообещающий шаг на пути к созданию инструментов общего назначения, способных моделировать физический мир.

 

 

Этот технический отчет посвящен двум основным аспектам: (1) как мы можем преобразовать различные типы визуальных данных в единое представление, чтобы обеспечить крупномасштабное обучение генеративных моделей; (2) Сора Качественная оценка возможностей и ограничений модели. Подробная информация о моделировании и реализации не включена в отчет.

Многие предыдущие исследования изучали моделирование видеоданных с помощью генеративных моделей, используя различные подходы, включая рекуррентные сети 1,2,3, генеративные состязательные сети 4,5,6,7, авторегрессионный трансформатор 8,9 и диффузионные модели 10,11,12 Эти исследования обычно фокусировались на определенных классах визуальных данных, коротких видео или видео фиксированного размера.Sora - это модель для обобщенного моделирования визуальных данных, способная генерировать видео и изображения различной длительности, соотношения сторон и разрешения, вплоть до одной минуты видео высокой четкости.

 

Инновационное преобразование визуальных данных: техника наложения заплаток

Вдохновленные успехом больших языковых моделей (LLM) в обработке данных интернет-масштаба и развитии универсальных навыков,13,14 мы исследовали, как подобные преимущества могут быть применены к генеративным моделям визуальных данных. Большая языковая модель была разработана с использованием жетоны -- эффективный способ объединить обработку кода, математики и нескольких естественных языков, обеспечивая бесшовные межмодальные переходы. В этом исследовании мы представляем аналог в визуальной области: визуальныйпатч(патчи). Было показано, что патчи являются эффективной формой представления визуальных данных,15,16,17,18 и могут значительно повысить способность генеративных моделей обрабатывать различные видео- и графические данные.

Sora视频生成模型:构建虚拟世界的模拟器 [译]
Рис. 1: Схематическая диаграмма патча

В частности, мы добиваемся преобразования видео в патчи, сначала сжимая видеоданные в низкоразмерное потенциальное пространство19 , а затем разлагая их на пространственно-временные патчи.

 

сеть сжатия видеосигнала

Мы разработали метод уменьшения размерности20 , который позволяет обрабатывать необработанные видеоданные и генерировать скрытые представления, сжатые во времени и пространстве. Кроме того, мы разработали декодер, способный сводить эти латентные представления к видеоизображениям на уровне пикселей.

 

технология тайм-патч

Обрабатывая входное сжатое видео, мы можем извлечь серию пространственно-временных патчей, которые играют в модели роль, аналогичную токенам трансформера. Стоит отметить, что эта схема также применима к обработке изображений, поскольку, по сути, изображение можно рассматривать как один кадр видео. Используя представление на основе патчей, Sora способна адаптироваться к видео и изображениям с различными разрешениями, длительностью и соотношением сторон. При генерации нового видеоконтента мы можем контролировать размер и форму конечного видео, располагая эти случайно инициализированные патчи в сетку нужного размера.

 

Трансформаторный удлинитель для генерации видео

Sora - это диффузная модель21,22,23,24,25 ; она способна принимать на вход зашумленные фрагменты изображения (и условную информацию, такую как текстовые подсказки) и обучается предсказывать исходные "чистые" фрагменты изображения. Стоит отметить, что Sora - это диффузный трансформер, а технология трансформеров продемонстрировала отличную масштабируемость в ряде областей, включая моделирование языка13,14, компьютерное зрение15,16,17,18 и генерацию изображений27,28,29 .

Sora视频生成模型:构建虚拟世界的模拟器 [译]
Рисунок Диффузия

В данном исследовании мы обнаружили, что трансформатор на основе диффузии также эффективно масштабируется в области видеомоделирования. В следующем разделе мы демонстрируем значительное улучшение качества образцов, вызванное увеличением ресурсов обучения, сравнивая видеообразцы при фиксированных условиях подачи и ввода во время обучения.

основной расчёт

4-кратный расчет

16-кратный расчет

 

Разнообразие длительности, разрешения и соотношения сторон видео

Традиционные методы создания изображений и видео обычно изменяют размер видео до стандартных размеров, например, видео длиной 4 секунды, обработанное с разрешением 256x256. Мы обнаружили, что обучение непосредственно на исходном размере видео дает множество преимуществ.

 

Гибкие возможности отбора проб

Sora может создавать видео в различных размерах, включая 1920x1080p для широкоэкранного режима, 1080x1920 для портретного и все, что находится между ними. Это позволяет Sora напрямую производить контент для различных устройств, соответствующий их родным соотношениям сторон. Кроме того, это позволяет нам быстро создавать прототипы контента в более низких размерах, прежде чем генерировать контент в полном разрешении, и все это на основе одной и той же модели.

Оптимизация композиции и планировки

Наши эксперименты показывают, что обучение на родном соотношении сторон видео значительно улучшает композицию и качество компоновки видео. Мы сравнили Sora с другой обучающей моделью, которая обрезала все обучающие видео до квадрата, что является обычной практикой при обучении генеративных моделей. Видео, сгенерированное Sora (правая сторона), показывает лучшие композиционные результаты, чем модель, обрезанная до квадрата (левая сторона), где иногда объект показан лишь частично. С другой стороны, Sora лучше передает всю сцену.

понимание языка

Для разработки систем, способных генерировать видео из текста, нам необходимо большое количество видео и соответствующих им текстовых описаний. Мы использовали технику перемаркировки, представленную в DALL-E 330, и применили ее к видеороликам. Сначала мы обучили модель, способную генерировать подробные описания, а затем использовали эту модель для создания текстовых описаний для всех видео в обучающем наборе. Мы обнаружили, что обучение с использованием подробных описаний видео не только повышает точность текста, но и значительно улучшает общее качество видео.

Как и в DALL-E 3, мы также используем GPT для преобразования коротких подсказок пользователя в подробные инструкции, которые затем отправляются в модель генерации видео. Этот процесс позволяет Sora создавать высококачественные видеоролики на основе инструкций пользователя.

 

Примеры навыков понимания языка (нажмите, чтобы развернуть)
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt- taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Mumbai-India-during- a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing- blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width= "640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant -stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true" ]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa -during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman- wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-colourful-festival.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white -t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Antarctica-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/ a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Antarctica-during-a-colourful-festival.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Mumbai-India-during-a- winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a- green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll- in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:/ /cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a- winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a- green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-colourful-festival.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-Antarctica-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Antarctica-during-a- winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a- green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Antarctica-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant- stroll-in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm. mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls- and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="" 360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during -a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing- purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots- taking-a-pleasant-stroll-in-Antarctica-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Antarctica-during- a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing- purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack][videopack width= "640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a- приятная прогулка в мумбаи-индии во время красивого заката.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Mumbai-India-during-a- winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/an-old-man-wearing- blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width= "640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a- pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-johannesburg-South-Africa-during-a красочный фестиваль.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man- в голубых джинсах и белой футболке - прогулка в Антарктиде во время красивого заката.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a -pleasant-stroll-in-Antarctica-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a-colourful- festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a- green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant- stroll-in-Mumbai-India-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Mumbai-India-during-a-colourful- festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a- green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in- Johannesburg-South-Africa-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Antarctica-during-a-beautiful-... sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green -dress-and-a-sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in- Antarctica-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/ tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Mumbai-India-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com /tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a- beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man- wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and -cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-colourful-festival.mp4[/ videopack][videopack width="640 " height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a- pleasant-stroll-in-Antarctica-during-a-beautiful-sunset.mp4[/videopack][videopack width="640 " height="360" downloadlink="true"]https. //cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-winter- storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple- overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant- stroll-in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm .mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans- and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height ="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll -in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https. //cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa- during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot -wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-Antarctica-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Antarctica-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/ a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and- a-sun-hat-taking-a-pleasant-stroll-in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in- Mumbai-India-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/ s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Mumbai-India-during-a-colourful-festival.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and- a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/ videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant- прогулка в иоганнесбурге-южная африка во время зимней бури.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South-Africa -during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy -robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat- taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Antarctica-during-a- красочный фестиваль.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/a-toy-robot- wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy- boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink= "true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Mumbai-India- during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy- robot-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4 [/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls- and-cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a- pleasant-stroll-in-Johannesburg-South-Africa-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Antarctica-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/ tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls- and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360 " downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant- stroll-in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn. openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-... winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo -wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a- приятная прогулка в йоханнесбурге-южная африка во время зимней бури.mp4[/videopack][videopack width="640" height="360" downloadlink=" true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in- Johannesburg-South-Africa-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-antarctica-during-a- beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable- kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Antarctica-during-a-winter-storm.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a- white-t-shirt-taking-a-pleasant-stroll-in-Antarctica-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll -in-Mumbai-India-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai. com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm. mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a- green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a- pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll -in-Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https:// cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-Johannesburg-South- Africa-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s /an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green- dress-and-a-sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll -in-Antarctica-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai. com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a- beautiful-sunset.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable- kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack][ videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and- cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant- прогулка в иоганнесбурге-южная африка-время красивого заката.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in- Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack][videopack width="640" height="360" downloadlink="true"] https://cdn. openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South- Africa-during-a-colourful-festival.mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s /an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset. mp4[/videopack][videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing- purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]

 

Функция подсказки для изображений и видео

Все примеры и видео, представленные на нашем сайте, преобразованы из текста. Однако Sora может также принимать на вход изображения или существующие видео. Эта функция позволяет Sora выполнять различные задачи по редактированию изображений и видео, например, создавать бесшовные зацикленные видео, анимировать неподвижные изображения, увеличивать время воспроизведения видео и многое другое.

 

Заставляя DALL-E Pictures двигаться

С помощью одной лишь картинки и подсказки Сора может создавать видеоролики. Ниже приведены примеры видеороликов, созданных на основе изображений DALL-E 231 и DALL-E 330.

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Сиба Ину в берете и черной водолазке.

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Иллюстрация семьи, состоящей из различных монстров, выполненная в стиле графического дизайна. Здесь есть пушистый коричневый монстр, гладкий черный монстр со щупальцами, пятнистый зеленый монстр и крошечный монстр в горошек, которые взаимодействуют в приятной обстановке.

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Формирует реалистичные изображения облаков со словом "SORA".

Sora视频生成模型:构建虚拟世界的模拟器 [译]

В богато украшенном историческом зале огромная волна готова обрушиться на вас. Два серфингиста пользуются возможностью и умело оседлают волну.

 

Растяжка времени видео

Sora также может продлевать видео вперед или назад. Ниже представлены четыре видеоролика, которые начинаются со сгенерированного видеоклипа и продлеваются назад. Несмотря на то что эти четыре видео имеют разное начало, все они сходятся в одном конце.

Используя эту технику, мы смогли развернуть видео вперед или назад, создав идеальный эффект бесконечного цикла.

 

Инновационный видеомонтаж

Диффузионное моделирование открывает новые горизонты для редактирования изображений и видео на основе текстовых подсказок. Далее мы применили его в Sora, используя одну из таких инноваций - SDEdit32 , технологию, позволяющую Sora изменять стиль и окружение видео без каких-либо предварительных примеров. Эта технология позволяет Sora изменять стиль и окружение видео без каких-либо предварительных примеров.

Входное видео

Измените настройку на "Пышные джунгли".

Измените настройки на 1920-е годы и используйте старый добрый символ captureRejectionSymbol. Убедитесь, что он остается красным.

Сделайте это под водой.

Изменить настройки видео на другую сцену, а не на горы? Может быть, на "Дерево Джошуа"?

Поместите видео в пространство с радужной дорожкой.

Оставьте видео прежним, но сделайте его зимним.

Выполнен в стиле глиняной анимации.

Переделайте его в стиле рисунка углем, обязательно черно-белого.

Измените настройки на "Киберпанк".

Измените видео на средневековую тему.

Пусть в нем будут динозавры.

Перепишите видео в стиле пиксель-арт.

 

Плавные переходы между видео

Мы также можем использовать Sora для плавного соединения двух совершенно разных видео, чтобы они естественно переходили друг в друга, как будто это одно целое. В примере ниже вы увидите, что видео в середине тонко сочетает в себе элементы левого и правого видео.

Волшебное создание образов

Способность Sora создавать потрясающие изображения не ограничивается видео. Мы делаем это волшебство, располагая блоки гауссовского шума в пространственной сетке длиной всего в один кадр. Таким образом, Sora может создавать изображения любого размера, вплоть до максимального разрешения 2048x2048.

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Портрет дамы крупным планом в разгар осеннего дня с потрясающей детализацией и удивительно малой глубиной резкости.

 

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Оживленный коралловый риф с разноцветными рыбами и морскими обитателями, снующими туда-сюда.

 

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Цифровая иллюстрация молодого тигра под яблоней демонстрирует детальную красоту в стиле матовой живописи.

 

Sora视频生成模型:构建虚拟世界的模拟器 [译]

Заснеженная горная деревня, уютные домики и северное сияние раскрываются в изысканных деталях, словно снятые на фотокамеру с объективом 50 мм f/1,2.

 

 

Новые возможности моделирования

Мы обнаружили, что при масштабном обучении видеомодель демонстрирует убедительный набор эмерджентных возможностей. Эти возможности позволяют Sora в определенной степени имитировать реальных людей, животных и окружающую среду. Такие возможности не требуют каких-либо определенных предпочтений в отношении 3D-пространства, объектов и т. д. - они возникают исключительно благодаря масштабу данных.

Трехмерная пространственная когерентность. Sora генерирует видео с динамическим изменением перспективы. При изменении положения и угла наклона камеры персонажи и элементы сцены в видео могут согласованно перемещаться в трехмерном пространстве.

Преемственность на дальних расстояниях и сохранение объектов. Сохранение временной непрерывности при создании длинных видеороликов является сложной задачей. Мы заметили, что Sora обычно эффективно справляется с зависимостями как на ближних, так и на дальних расстояниях. Например, наша модель способна поддерживать непрерывное присутствие персонажей, животных или объектов, даже если они заслонены или перемещены за пределы кадра. Аналогично, она способна показывать один и тот же персонаж несколько раз в одном и том же видеофрагменте, обеспечивая его появление на протяжении всего времени.

Взаимодействие с миром. Иногда Сора может моделировать поведение, которое просто влияет на состояние мира. Например, мазки, которые художник оставляет на холсте, сохраняются с течением времени, или следы от укуса, оставленные человеком, поедающим гамбургер.

Аналог цифрового мира. Sora также может моделировать цифровые процессы, такие как видеоигры. Она может качественно визуализировать игровой мир и его динамику, управляя игровым персонажем Minecraft при выполнении основных операций. Эти возможности можно задействовать, просто упомянув слово "Minecraft" в качестве подсказки.

Эти особенности показывают, что постоянно расширяющиеся масштабы видеомоделирования - это перспективный путь к созданию продвинутых симуляторов, способных в высокой степени имитировать как физический, так и цифровой мир, включая объекты, животных и людей в нем.

 

поговорить

Как симулятор, Sora в настоящее время имеет множество ограничений. Например, она не может точно смоделировать основные физические взаимодействия, такие как разбивание стекла. Некоторые взаимодействия, такие как прием пищи, не всегда корректно отражают изменения в состоянии объекта. Мы работаем над тем, чтобыОзнакомительная страница OpenAI SoraПодробно описаны и другие распространенные сбои в работе модели, включая такие проблемы, как несоответствия в длинных видеофрагментах или внезапное появление объектов.

Мы считаем, что существующие возможности Sora демонстрируют, что дальнейшее масштабирование видеомодели является перспективным направлением для разработки продвинутых симуляторов, способных точно моделировать физический и цифровой миры, а также объекты, животных и людей в них.

 

Ссылки

  1. Шривастава, Нитиш, Эльман Мансимов и Руслан Салахудинов. "Неподконтрольное обучение видеопредставлений с помощью lstms". конференция по машинному обучению. пмлр, 2015.

  2. Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).

  3. Ха, Дэвид и Юрген Шмидхубер. "Модели мира". arXiv препринт arXiv:1803.10122 (2018).

  4. Вондрик, Карл, Хамед Пирсиаваш и Антонио Торральба. "Генерация видео с динамикой сцены". "Достижения в области нейронных систем обработки информации 29 (2016).

  5. Туляков Сергей и др. "Mocogan: декомпозиция движения и контента для создания видео". Материалы конференции IEEE по компьютер Зрение и распознавание образов. 2018.

  6. Кларк, Эйдан, Джефф Донахью и Карен Симоньян. "Генерация адверсарных видео на сложных наборах данных". arXiv препринт arXiv:1907.06571 (2019).

  7. Брукс, Тим и др. "Генерация длинных видеороликов с динамическими сценами". Успехи в области нейронных систем обработки информации 35 (2022): 31769-31781.

  8. Yan, Wilson, et al. "Videogpt: генерация видео с помощью vq-vae и трансформаторов." arXiv preprint arXiv:2104.10157 (2021).

  9. Ву, Ченфей и др. "Нюва: предварительное обучение визуальному синтезу для нейронного создания визуального мира". Европейская конференция по компьютерному зрению. Шам: Шпрингер Cham: Springer Switzerland, 2022.

  10. Хо, Джонатан и др. "Imagen video: создание видео высокой четкости с помощью диффузионных моделей". Препринт arXiv:2210.02303 (2022).

  11. Блаттманн, Андреас и др. "Align your latents: high-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Конференция по компьютерному зрению и распознаванию образов. 2023.

  12. Гупта, Агрим и др. "Создание фотореалистичного видео с помощью диффузионных моделей". arXiv препринт arXiv:2312.06662 (2023).

  13. Васвани, Ашиш и др. "Внимание - это все, что вам нужно". Достижения в области нейронных систем обработки информации 30 (2017).

  14. Браун, Том и др. "Языковые модели - это обучающиеся с несколькими выстрелами". Достижения в области нейронных систем обработки информации 33 (2020): 1877-1901.

  15. Досовицкий, Алексей и др. "Изображение стоит 16x16 слов: трансформаторы для распознавания изображений в масштабе". Препринт arXiv:2010.11929 (2020).

  16. Арнаб, Анураг и др. "Vivit: трансформатор видеовидения". Материалы международной конференции IEEE/CVF по компьютерному зрению. 2021.

  17. He, Kaiming, et al. "Маскированные автокодировщики - масштабируемые обучающие устройства для зрения". Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов. 2022.

  18. Дехгани, Мостафа и др. "Patch n'Pack: NaViT, трансформатор зрения для любого соотношения сторон и разрешения". Препринт arXiv:2307.06304 (2023).

  19. Ромбах, Робин и др. "Синтез изображений высокого разрешения с помощью моделей скрытой диффузии". Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов. 2022.

  20. Кингма, Дидерик П. и Макс Веллинг. "Автокодирование вариативного байеса". Препринт arXiv:1312.6114 (2013).

  21. Сохл-Дикштейн, Яша, и др. "Глубокое обучение без контроля с использованием неравновесной термодинамики". Международная конференция по машинному обучению. PMLR, 2015.

  22. Хо, Джонатан, Аджай Джайн и Питер Аббел. "Денуация диффузионных вероятностных моделей". Достижения в области нейронных систем обработки информации 33 (2020): 6840-6851.

  23. Никол, Александр Куинн и Прафулла Дхаривал. "Улучшенные диффузионные вероятностные модели денуазинга". Международная конференция по машинному обучению. PMLR, 2021.

  24. Дхаривал, Прафулла и Александр Куинн Никол. "Диффузионные модели, используемые для синтеза изображений". Достижения в области нейронных систем обработки информации. 2021.

  25. Каррас, Теро, и др. "Прояснение пространства проектирования генеративных моделей на основе диффузии". Достижения в области нейронных систем обработки информации 35 (2022): 26565-26577.

  26. Пиблз, Уильям и Сайнинг Кси. "Масштабируемые модели диффузии с трансформаторами". Труды Международной конференции IEEE/CVF по компьютерному зрению. 2023.

  27. Чен, Марк и др. "Генеративное предварительное обучение по пикселям". Международная конференция по машинному обучению. PMLR, 2020.

  28. Рамеш, Адитья и др. "Генерация текста в изображение с нулевого снимка". Международная конференция по машинному обучению. PMLR, 2021.

  29. Ю, Цзяхуэй и др. "Масштабирование авторегрессионных моделей для генерации текста в изображения с большим содержанием". Препринт arXiv:2206.10789 2.3 (2022): 5.

  30. Беткер, Джеймс и др. "Улучшение создания изображений с помощью лучших подписей". Компьютерные науки. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8

  31. Рамеш, Адитья и др. "Иерархическая генерация изображений с текстовыми условиями и клиповыми латентами". Препринт arXiv:2204.06125 1.2 (2022): 3.

  32. Мэн, Чэньлинь и др. "Sdedit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений". Препринт arXiv:2108.01073 (2021).

Авторы

Благодарности

Цитировать

Пожалуйста, цитируйте как OpenAI et al. и используйте следующий бибтекс для цитирования. https://openai.com/bibtex/videoworldsimulators2024.bib

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...