原文ママ世界シミュレーターとしての映像生成モデル
我々は、ビデオデータに対する生成モデルの大規模な学習に取り組んでいる。具体的には、異なる時間、解像度、アスペクト比の動画や画像に対して、テキスト条件拡散に基づくモデルを共同で学習する。我々は 変圧器 アーキテクチャは、ビデオや画像に潜在的にエンコードされている時空間セグメントを扱うことができるアーキテクチャである。我々の最大のモデルであるSoraは、高品質の1分ビデオを生成する。我々の研究は、ビデオ生成モデルの拡張が、物理世界をシミュレートできる汎用ツールの作成に向けた有望なステップであることを示している。
(1)生成モデルの大規模な学習を可能にするために、様々な種類の視覚データをどのように統一された表現に変換できるか。 ソラ モデルの能力と限界の定性的評価。モデリングと実施に関する詳細情報は報告書には含まれていない。
多くの先行研究では、リカレントネットワーク1,2,3、生成的敵対ネットワーク4,5,6,7、自己回帰変換器8,9、拡散モデル10,11,12など、様々なアプローチで生成モデルを用いた映像データのモデリングが検討されてきた。は、様々な時間、アスペクト比、解像度の動画や画像、最大1分のHD動画を生成することができる、視覚データの一般化されたモデリングのためのモデルである。
ビジュアル・データの革新的変換:パッチング技術
大規模言語モデル(LLM)がインターネット規模のデータを処理し、全方位的なスキルを開発することに成功したことに触発され13,14、我々は同様の利点を視覚データの生成モデルにどのように適用できるかを探求した。大規模言語モデルは トークン -- コード、数学、複数の自然言語の処理を統合する効率的な方法であり、シームレスなモード間遷移を可能にする。本研究では、ビジュアル領域における対となるものを紹介する。パッチ (パッチ)。パッチは視覚データ表現の効率的な形式であることが示されており15,16,17,18、多様なビデオや画像データを処理する生成モデルの能力を大幅に向上させることができる。
図1:パッチの模式図
具体的には、まずビデオデータを低次元のポテンシャル空間に圧縮し19、次に時空間パッチに分解することで、ビデオからパッチへの変換を実現する。
ビデオ圧縮ネットワーク
Soraはこの圧縮された潜在空間で学習され、新しいビデオコンテンツを生成することができる。Soraはこの圧縮された潜在空間で学習され、新しいビデオコンテンツを生成することができる。さらに、この潜在表現をピクセルレベルのビデオ画像に変換するデコーダを開発した。
タイムパッチ技術
圧縮されたビデオ入力を処理することで、一連の時空間パッチを抽出することができる。この時空間パッチは、モデルにおけるトランスフォーマートークンと同様の役割を果たす。この方式は画像処理にも適用可能であり、本質的に画像はビデオの単一フレームとみなすことができるからである。パッチベースの表現を使うことで、Soraは解像度、時間、アスペクト比の異なるビデオや画像に適応することができる。新しいビデオコンテンツを生成する際、ランダムに初期化されたパッチを希望するサイズのグリッドに配置することで、最終的なビデオのサイズと形を制御することができる。
Soraは拡散モデル21,22,23,24,25であり、ノイズの多い画像チャンク(およびテキストキューなどの条件付き情報)を入力として受け入れ、元の「明瞭な」画像チャンクを予測するように学習される。Soraは拡散Transformerであり、Transformer技術は言語モデリング13,14、コンピュータビジョン15,16,17,18、画像生成27,28,29を含む多くの領域で優れたスケーラビリティを実証していることは注目に値する。
フィギュア拡散
本研究では、拡散ベースのTransformerがビデオモデリング領域においても効率的にスケールすることを見出す。以下の節では、学習時のシードと入力条件を固定したビデオサンプルを比較することで、学習リソースの増加によってサンプルの品質が大幅に向上することを示す。
映像時間、解像度、アスペクト比の多様性
従来の画像・動画生成手法では、動画を標準的なサイズ、例えば256x256の解像度で処理された4秒間の動画にリサイズするのが一般的であった。我々は、動画のオリジナルサイズで直接トレーニングすることで、複数の利点が得られることを発見した。
柔軟なサンプリング機能
Soraは、ワイドスクリーン用の1920x1080p、ポートレート用の1080x1920、そしてその中間など、様々なサイズのビデオを制作することができる。これにより、Soraは様々なデバイスのネイティブアスペクト比に合わせたコンテンツを直接制作することができます。さらに、フル解像度のコンテンツを生成する前に、低いサイズで素早くコンテンツを試作することができます。
構成とレイアウトの最適化
我々の実験によると、動画のネイティブアスペクト比でのトレーニングは、動画の構成とレイアウトの品質を大幅に向上させる。Soraと、生成モデルを学習する際に通常行われる、すべての学習ビデオを正方形に切り抜く別の学習モデルを比較しました。Soraによって生成された動画(右側)は、正方形にトリミングされたモデル(左側)よりも良い構図結果を示しています。一方、Soraはシーンを完全に捉えることができる。
言語理解
テキストから動画を生成するシステムを開発するためには、大量の動画とそれに対応するテキスト記述が必要である。我々は、DALL-E 330で紹介されたリラベリング技術を利用し、動画に適用した。まず、詳細な説明文を生成できるモデルを訓練し、このモデルを用いて訓練セットの全ての動画に対してテキスト説明文を作成した。高度に説明的な動画説明文によるトレーニングは、テキストの精度を向上させるだけでなく、動画の全体的な品質も大幅に向上させることがわかりました。
また、DALL-E 3と同様に、GPTを使用して、短いユーザーからの指示を詳細な指示に変換し、それを映像生成モデルに送ります。このプロセスにより、Soraはユーザーの指示に基づいて高品質な映像を生成することができます。
言語理解力の例(クリックで拡大)
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-ムンバイ-インド-美しい夕日を見ながらの散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-ムンバイ・インド・冬の嵐.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-ムンバイで楽しいお散歩-カラフルなお祭りの間に.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-ヨハネスブルグ-南アフリカ-美しい夕日の中を散歩する.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-[videopack]冬の嵐の中、ヨハネスブルグを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-[ビデオパック width="640" height="360"]true[videoopack download link="true"]taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-美しい夕日の中、楽しい散歩をする。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-冬の嵐に吹かれながら、気持ちよく散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-[ビデオパック width="640" height="360"]true[/videopack] [ビデオパック width="640" height="360"]true.mp4
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-ムンバイ-インド-美しい夕日の中を散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-ムンバイ・インド・冬の嵐.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-ムンバイで楽しいお散歩-カラフルなお祭りの間に.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-ヨハネスブルグ-南アフリカ-美しい夕日の中を散歩する.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-[videopack]冬の嵐の中、ヨハネスブルグを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-[videopack]ヨハネスブルグ-南アフリカ-カラフルなお祭りの間に楽しい散歩をする.mp4[/videopack][/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-美しい夕日の中、楽しい散歩をする。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-冬の嵐に吹かれながら、気持ちよく散歩する南極大陸.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-[ビデオパック width="640" height="360"]true[/videopack] [ビデオパック width="640" height="360"]true
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack] [ビデオパック width="640" height="360"]true
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack] [ビデオパック width="640" height="360"]true]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack] [ビデオパック width="640" height="360"]true]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack] [ビデオパック width="640" height="360" true]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack] [ビデオパック width="640" height="360"]true]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack] [ビデオパック width="640" height="360" true]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack] [ビデオパック width="640" height="360"]true]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack] [ビデオパック width="640" height="360"]true]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-ムンバイ-インド-美しい夕日の中を楽しく散歩するシャツ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-ムンバイ・インド・冬の嵐を楽しむシャツ散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-ムンバイ-インド-カラフルなお祭りの中で楽しい散歩をするシャツ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-シャツで楽しい散歩-ヨハネスブルグ-南アフリカ-美しい夕日の中.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-[ビデオパック width="640" height="360"]true[shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-winter-storm.mp4] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-[videopack][/ビデオパック
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-[videopack][/ビデオパック
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-南極大陸の冬の嵐を楽しむシャツ散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-[videopack][/ビデオパック
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-ムンバイ-インド-美しい夕日を眺めながら散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-ムンバイ・インド・冬の嵐.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-ムンバイで楽しいお散歩-カラフルなお祭りの間に.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-ヨハネスブルグ-南アフリカ-美しい夕日の中を散歩する.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-[videopack]冬の嵐の中、ヨハネスブルグを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-[ビデオパック width="640" height="360"]true[videoopack download link="true"]taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-美しい夕日の中、楽しい散歩をする。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-冬の嵐に吹かれながら、気持ちよく散歩する南極大陸.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-[ビデオパック width="640" height="360"]true[/videopack] [ビデオパック width="640" height="360"]true
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-ムンバイ-インド-美しい夕日の中を気持ちよく散歩するブーツ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-ムンバイ・インド・冬の嵐を楽しむ長靴散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-ムンバイ・インド・カラフルなお祭りの中の楽しい散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-[ビデオパック width="640" height="360" title="Boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-[ビデオパック width="640" height="360"]true[/videopack] [ビデオパック width="640" height="360"]true
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-[ビデオパック width="640" height="360"]true[videoopack download link="true"[/videopack] 長靴を履いてヨハネスブルグを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-[ビデオパック][/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-[ビデオパック width="640" height="360"]true[download link="true"]boot-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-[ビデオパック width="640" height="360"]true[/videopack] [ビデオパック width="640" height="360"]true.mp4
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-ムンバイ-インド-美しい夕日の中を楽しく散歩するシャツ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-ムンバイ・インド・冬の嵐を楽しむシャツ散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-ムンバイ-インド-カラフルなお祭りの中で楽しい散歩をするシャツ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-シャツで楽しい散歩-ヨハネスブルグ-南アフリカ-美しい夕日の中.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-[ビデオパック width="640" height="360"]true[shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-winter-storm.mp4] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-[videopack][/ビデオパック
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-[videopack][/ビデオパック
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-南極大陸の冬の嵐を楽しむシャツ散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-[videopack][/ビデオパック
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-ムンバイ-インド-美しい夕日を眺めながら散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-ムンバイ・インド・冬の嵐.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-ムンバイで楽しいお散歩-カラフルなお祭りの間に.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-ヨハネスブルグ-南アフリカ-美しい夕日の中を散歩する.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-[videopack]冬の嵐の中、ヨハネスブルグを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-[ビデオパック width="640" height="360"]true[videoopack download link="true"]taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-美しい夕日の中、楽しい散歩をする。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-冬の嵐に吹かれながら、気持ちよく散歩する南極大陸.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-[ビデオパック width="640" height="360"]true[/videopack] [ビデオパック width="640" height="360"]true
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-ムンバイ-インド-美しい夕日の中を気持ちよく散歩するブーツ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-ムンバイ・インド・冬の嵐を楽しむ長靴散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-ムンバイ・インド・カラフルなお祭りの中の楽しい散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-[ビデオパック width="640" height="360" title="Boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful sunset.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-[ビデオパック width="640" height="360"]true[/videopack] [ビデオパック width="640" height="360"]true
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-[ビデオパック width="640" height="360"]true[videoopack download link="true"[/videopack] 長靴を履いてヨハネスブルグを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-[ビデオパック][/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-[ビデオパック width="640" height="360"]true[download link="true"]boot-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-[ビデオパック width="640" height="360"]true[/videopack] [ビデオパック width="640" height="360"]true
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-ムンバイ-インド-美しい夕日の中を散歩する白いTシャツ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-ムンバイ-インド-冬の嵐の中を気持ちよく散歩する白いTシャツ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-ムンバイ-インド-カラフルなお祭りを楽しむ白いTシャツ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-南アのヨハネスブルグで美しい夕日を眺めながら散歩する白いTシャツ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-[ビデオパック width="640" height="360"]true]white-t-shirt-taking a pleasant-stroll-in-Johannesburg-South-Africa-during a winter-storm.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-[ビデオパック width="640" height="360"]true]white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-colourful-festival.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-白シャツで楽しい散歩-美しい夕暮れのアンタークティカ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-[videopack/ビデオパック][/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-白シャツで楽しいお散歩 - カラフルなお祭りの最中に - Antarctica-during-a-colourful-festival.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-beautiful-sunset.mp4[/videopack] [ビデオパック width="640" height="360"]true]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking a pleasant-stroll-in-mumbai-india-during-a winter-storm.mp4[/videopack] [ビデオパック width="640" height="360"]true
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack] [ビデオパック width="640" height="360" true]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack] [ビデオパック width="640" height="360"]true]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack] [ビデオパック width="640" height="360"]true
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack] [ビデオパック width="640" height="360"]true]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking a pleasant-stroll-in-mumbai-india-during a beautiful-sunset.mp4[/videopack] [ビデオパック width="640" height="360" true]ムンバイの美しい夕暮れ。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking a pleasant-stroll-in-mumbai-india-during-a winter-storm.mp4[/videopack] [ビデオパック width="640" height="360"]true
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack] [ビデオパック width="640" height="360" true]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack] [ビデオパック width="640" height="360"]true]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking a pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack] [ビデオパック] [ビデオパック] -cowboy-boots-taking a pleasant-stroll-in-antarctica-during-a-winter-storm.mp4
写真やビデオのキュー機能
当ウェブサイトに掲載されている例やビデオは、すべてテキストから変換されています。しかし、Soraは画像や既存の動画を入力として受け付けることもできます。この機能により、シームレスなループ動画の作成、静止画のアニメーション化、動画の再生時間延長など、様々な画像・動画編集を行うことができます。
DALL-Eの写真を動かす
画像とプロンプトだけで、Soraは動画を作成することができます。DALL-E 231とDALL-E 330の画像から生成された動画の例を以下に示します。
ベレー帽と黒のタートルネックを着た柴犬。
様々なモンスターを含む家族のグラフィックデザイン風イラスト。毛皮で覆われた茶色のモンスター、触手が生えたなめらかな黒いモンスター、斑点のある緑のモンスター、水玉模様の小さなモンスターが、楽しい環境の中で交流している。
SORA "の文字でリアルな雲のイメージを形作る。
豪華な装飾が施された歴史的なホールで、巨大な波が押し寄せようとしている。二人のサーファーがそのチャンスをつかみ、巧みに波に乗る。
ビデオ・タイムストレッチ
Soraは、ビデオを前方または後方に延長することもできる。下の4つのビデオは、すべて生成されたビデオクリップから始まり、後方に伸びる。つまり、この4つの動画は始まりが異なっていても、すべて同じ終わりに収束している。
このテクニックを使って、ビデオを前方や後方に拡大し、完璧な無限ループ効果を作り出すことができた。
革新的なビデオからビデオへの編集
拡散モデリングは、テキストを手がかりとした画像やビデオの編集に新たな地平を開く。SDEdit32は、Soraが事前の例なしに動画のスタイルや環境を変更できるようにする技術である。この技術により、Soraは事前の例なしにビデオのスタイルや環境を変えることができる。
入力ビデオ
Lush Jungleに設定を変更する。
設定を1920年代に変更し、旧式のcaptureRejectionSymbolを使用する。
水中に作る。
ビデオの設定を山とは違うシーンに変える?ジョシュアツリーとか?
ビデオを虹のパスで空間に配置する。
映像はそのままで、冬にする。
クレイアニメーションのスタイルで作られている。
それを木炭画のスタイルで、白黒になるように描き直す。
設定をサイバーパンクに変更する。
ビデオを中世のテーマに変える。
恐竜を登場させる。
ビデオをピクセルアート風に書き直す。
ビデオ間のスムーズなトランジション
また、Soraを使えば、全く異なる2つの動画を滑らかにつなげ、あたかも1つの動画のように自然に移行させることもできます。下の例では、真ん中の動画が左右の動画の要素を微妙にブレンドしているのがわかります。
魔法のような映像の創造
Soraの魅力的な画像を作成する能力は、ビデオに限定されるものではない。私たちは、ガウスノイズのブロックを1フレーム分の空間グリッドに配置することで、このマジックを実現しています。この方法で、Soraは最大解像度2048x2048までのあらゆるサイズの画像を作成することができる。
素晴らしいディテールと驚くほど浅い被写界深度を持つ、秋の日の女性のクローズアップポートレート。
色とりどりの魚や海洋生物が織りなす、活気に満ちたサンゴ礁。
リンゴの木の下にいる若いトラのデジタル・アートワークは、マット・ペインティング・スタイルの細密な美しさを表現している。
雪に覆われた山村、居心地の良いコテージ、そしてオーロラが、まるで50mm F1.2のレンズを装着したデジタル一眼レフカメラで撮影したかのように、絶妙なディテールで展開される。
新たなシミュレーション能力
我々は、大規模なトレーニングの下で、ビデオモデルが魅力的な一連の創発的能力を示すことを発見した。これらの能力は、Soraに現実世界の人、動物、環境をある程度シミュレートする能力を与える。このような創発的能力は、3D空間やオブジェクトなどに対する特定の事前決定を必要としない。
三次元空間コヒーレンス。 Soraは、ダイナミックなパースペクティブの変化を伴う映像を生成する。カメラの位置や角度が変わると、映像の中のキャラクターやシーン要素が3次元空間で首尾一貫して動くことができる。
長距離の連続性とオブジェクトの永続性。 長い動画を生成する際に、時間的な連続性を維持することは課題であった。Soraは通常、短距離依存性と長距離依存性の両方を効果的に処理できることが確認されている。例えば、我々のモデルは、キャラクタ、動物、またはオブジェクトがオクルードされたり、フレームの外に移動したりしても、その連続的な存在を維持することができる。同様に、同じビデオサンプルの中で同じキャラクターを複数回表示することができ、全体を通してそのキャラクターを確実に表示することができます。
世界との交流。 ソラは時に、世界の状態に影響を与えるだけの行動をシミュレートすることができる。例えば、画家がキャンバスに残した筆跡は時間が経っても消えないし、誰かがハンバーガーを食べたときに残る噛み跡も消えない。
デジタル世界のアナログ。 Soraはビデオゲームなどのデジタル処理もシミュレートできる。マインクラフトのゲームキャラクターを基本操作でコントロールしながら、ゲームの世界とそのダイナミクスを高品質でレンダリングできる。これらの機能は、プロンプトとして "Minecraft "という単語を口にするだけで、呼び出すことができる。
これらの特徴は、ビデオモデリングの規模が拡大し続けていることが、物理的な世界だけでなく、デジタル世界(その中にある物体、動物、人間を含む)を高度にシミュレートできる高度なシミュレーターの開発に向けて有望な道であることを示している。
計らう
シミュレーターとしてのSoraには、現在のところ多くの限界がある。例えば、ガラスを割るような基本的な物理的インタラクションを正確にシミュレートすることはできない。食事のようないくつかのインタラクションは、オブジェクトの状態の変化を必ずしも正しく反映しません。私たちはOpenAI そらの紹介ページ このモデルのその他の一般的な不具合については、長いビデオサンプルの不一致や物体の突然の出現といった問題を含めて詳しく説明している。
Soraの既存の能力は、ビデオモデルのスケールを拡大し続けることが、物理世界とデジタル世界、そしてその中の物体、動物、人間を正確にモデル化できる高度なシミュレーターの開発に向けた有望な道であることを示していると我々は信じている。
参考文献
Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." international conference.conference on machine learning.
Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).
Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).
Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems.29 (2016).
Mocogan: Decomposing motion and content for video generation." Proceedings of IEEE conference on. コンピュータ ビジョンとパターン認識。
Clark, Aidan, Jeff Donahue, and Karen Simonyan. "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).
Brooks, Tim, et al. "Generating long videos of dynamic scenes." Advances in Neural Information Processing Systems 35 (2022): 31769-31781.
Videogpt:vq-vaeと変換器を使ったビデオ生成」arXiv preprint arXiv:2104.10157 (2021).
Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: SpringerCham: Springer Switzerland, 2022.
Ho, Jonathan, et al. "Imagen video: High Definition Video Generation with diffusion models.". arXiv preprint arXiv:2210.02303 (2022).
Blattmann, Andreas, et al. "Align your latents: high-resolution video synthesis with latent diffusion models." Proceedings of IEEE/CVF.Computer Vision and Pattern Recognition" Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition.
Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).
Vaswani, Ashish, et al. "Attention is all you need.". 神経情報処理システムの進歩 30 (2017).
Brown, Tom, et al. "Language models are few-shot learners.". 神経情報処理システムの進歩 33 (2020): 1877-1901.
Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: transformers for image recognition at scale". arXivプレプリント arXiv:2010.11929 (2020).
Arnab, Anurag, et al. "Vivit: A video vision transformer". コンピュータビジョンに関するIEEE/CVF国際会議議事録 . 2021.
He, Kaiming, et al. "Masked autoencoders are scalable vision learners.". コンピュータビジョンとパターン認識に関するIEEE/CVF会議予稿集 . 2022.
Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution". arXiv preprint arXiv:2307.06304 (2023).
Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models.". コンピュータビジョンとパターン認識に関するIEEE/CVF会議予稿集 . 2022.
Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes.". arXiv preprint arXiv:1312.6114 (2013).
Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics". 機械学習国際会議 . PMLR, 2015.
Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models.". 神経情報処理システムの進歩 33 (2020): 6840-6851.
Nichol, Alexander Quinn, and Prafulla Dhariwal. "Improved denoising diffusion probabilistic models.". 機械学習国際会議 . PMLR、2021年
Dhariwal, Prafulla, and Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis.". 神経情報処理システムの進歩 . 2021.
Karras, Tero, et al. "Elucidating design space of diffusion-based generative models". 神経情報処理システムの進歩 35 (2022): 26565-26577.
Peebles, William, and Saining Xie. "Scalable diffusion models with transformers.". IEEE/CVFコンピュータビジョン国際会議論文集 . 2023.
Chen, Mark, et al. "Generative pre-training from pixels". 機械学習国際会議 . PMLR、2020年
Ramesh, Aditya, et al. "Zero shot text-to-image generation". 機械学習国際会議 . PMLR、2021年
Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation". arXiv preprint arXiv:2206.10789 2.3 (2022): 5.
Betker, James, et al. "Improving image generation with better captions.". https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8
Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents". arXiv preprint arXiv:2204.06125 1.2 (2022): 3.
Meng, Chenlin, et al. "Sdedit: guided image synthesis and editing with stochastic differential equations.". arXiv preprint arXiv:2108.01073 (2021).
著者紹介
謝辞
引用
OpenAI et al.として引用し、引用には以下のビブテックスを使用してください。 https://openai.com/bibtex/videoworldsimulators2024.bib