我々は、ビデオデータに対する生成モデルの大規模学習に取り組んでいる。具体的には、時間的長さ、解像度、アスペクト比の異なる動画や画像に対して、テキスト条件拡散に基づくモデルを共同で学習する。我々は、動画や画像に潜在的に符号化された時空間セグメントを扱うことができるTransformerアーキテクチャを採用している。我々の最大のモデルであるSoraは、高品質の1分ビデオを生成する。我々の研究は、ビデオ生成モデルをスケールアップすることが、物理世界をモデル化できる汎用ツールを作成するための有望なステップであることを示している。
本テクニカルレポートは、(1)様々な種類の視覚データを、生成モデルの大規模学習を可能にする統一的な表現にどのように変換したか、(2)Soraモデルの能力と限界の定性的評価、の2点に焦点を当てている。本報告書には、モデルや実装に関する詳細な情報は含まれていない。
多くの先行研究では、リカレントネットワーク1,2,3、生成的敵対ネットワーク4,5,6,7、自己回帰変換器8,9、拡散モデル10,11,12など、様々なアプローチで生成モデルを用いた映像データのモデリングが検討されてきた。は、様々な時間、アスペクト比、解像度の動画や画像、最大1分のHD動画を生成することができる、視覚データの一般化されたモデリングのためのモデルである。
ビジュアル・データの革新的変換:パッチング技術
大規模言語モデル(LLM)がインターネット規模のデータを処理し、全方位的なスキルを開発することに成功したことに触発され13,14、我々は同様の利点を視覚データの生成モデルにどのように適用できるかを探求した。大規模言語モデルは トークン -- コード、数学、複数の自然言語の処理を統合する効率的な方法であり、シームレスなモード間遷移を可能にする。本研究では、ビジュアル領域における対となるものを紹介する。パッチ(パッチ)。パッチは視覚データ表現の効率的な形式であることが示されており15,16,17,18、多様なビデオや画像データを処理する生成モデルの能力を大幅に向上させることができる。
具体的には、まずビデオデータを低次元のポテンシャル空間に圧縮し19、次に時空間パッチに分解することで、ビデオからパッチへの変換を実現する。
ビデオ圧縮ネットワーク
Soraはこの圧縮された潜在空間で学習され、新しいビデオコンテンツを生成することができる。Soraはこの圧縮された潜在空間で学習され、新しいビデオコンテンツを生成することができる。さらに、この潜在表現をピクセルレベルのビデオ画像に変換するデコーダを開発した。
タイムパッチ技術
圧縮されたビデオ入力を処理することで、一連の時空間パッチを抽出することができる。この時空間パッチは、モデルにおけるトランスフォーマートークンと同様の役割を果たす。この方式は画像処理にも適用可能であり、本質的に画像はビデオの単一フレームとみなすことができるからである。パッチベースの表現を使うことで、Soraは解像度、時間、アスペクト比の異なるビデオや画像に適応することができる。新しいビデオコンテンツを生成する際、ランダムに初期化されたパッチを希望するサイズのグリッドに配置することで、最終的なビデオのサイズと形を制御することができる。
ビデオ生成用トランス拡張
Soraは拡散モデル21,22,23,24,25であり、ノイズの多い画像チャンク(およびテキストキューなどの条件付き情報)を入力として受け入れ、元の「明瞭な」画像チャンクを予測するように学習される。Soraは拡散Transformerであり、Transformer技術は言語モデリング13,14、コンピュータビジョン15,16,17,18、画像生成27,28,29を含む多くの領域で優れたスケーラビリティを実証していることは注目に値する。
本研究では、拡散ベースのTransformerがビデオモデリング領域においても効率的にスケールすることを見出す。以下の節では、学習時のシードと入力条件を固定したビデオサンプルを比較することで、学習リソースの増加によってサンプルの品質が大幅に向上することを示す。
映像時間、解像度、アスペクト比の多様性
従来の画像・動画生成手法では、動画を標準的なサイズ、例えば256x256の解像度で処理された4秒間の動画にリサイズするのが一般的であった。我々は、動画のオリジナルサイズで直接トレーニングすることで、複数の利点が得られることを発見した。
柔軟なサンプリング機能
Soraは、ワイドスクリーン用の1920x1080p、ポートレート用の1080x1920、そしてその中間など、様々なサイズのビデオを制作することができる。これにより、Soraは様々なデバイスのネイティブアスペクト比に合わせたコンテンツを直接制作することができます。さらに、フル解像度のコンテンツを生成する前に、低いサイズで素早くコンテンツを試作することができます。
構成とレイアウトの最適化
我々の実験によると、動画のネイティブアスペクト比でのトレーニングは、動画の構成とレイアウトの品質を大幅に向上させる。Soraと、生成モデルを学習する際に通常行われる、すべての学習ビデオを正方形に切り抜く別の学習モデルを比較しました。Soraによって生成された動画(右側)は、正方形にトリミングされたモデル(左側)よりも良い構図結果を示しています。一方、Soraはシーンを完全に捉えることができる。
言語理解
テキストから動画を生成するシステムを開発するためには、大量の動画とそれに対応するテキスト記述が必要である。我々は、DALL-E 330で紹介されたリラベリング技術を利用し、動画に適用した。まず、詳細な説明文を生成できるモデルを訓練し、このモデルを用いて訓練セットの全ての動画に対してテキスト説明文を作成した。高度に説明的な動画説明文によるトレーニングは、テキストの精度を向上させるだけでなく、動画の全体的な品質も大幅に向上させることがわかりました。
また、DALL-E 3と同様に、GPTを使用して、短いユーザーからの指示を詳細な指示に変換し、それを映像生成モデルに送ります。このプロセスにより、Soraはユーザーの指示に基づいて高品質な映像を生成することができます。
言語理解力の例(クリックで拡大)
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-ムンバイ-インド-美しい夕日の中を散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-ムンバイ-インド-冬の嵐の中の楽しい散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-ムンバイ-インド-カラフルなお祭りで楽しい散歩をする。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-ヨハネスブルグ-南アフリカ-美しい夕日の中を散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack] - 冬の嵐の中、ヨハネスブルグを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-[/videopack]ヨハネスブルグ-南アフリカ-カラフルなフェスティバルの間に楽しい散歩をする.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-"美しい夕日を見ながら散歩する".mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-"冬の嵐に吹かれながら、気持ちよく散歩する".mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-blue-jeans-and-a-white-t-shirt-"カラフルなお祭りで楽しい散歩.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-ムンバイ-インド-美しい夕日の中を散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-ムンバイ-インド-冬の嵐の中の楽しい散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-ムンバイ-インド-カラフルなお祭りで楽しい散歩をする。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-ヨハネスブルグ-南アフリカ-美しい夕日の中を散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack] - 冬の嵐の中、ヨハネスブルグを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-[/videopack]ヨハネスブルグ-南アフリカ-カラフルなフェスティバルの間に楽しい散歩をする.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-"美しい夕日を見ながら散歩する".mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-"冬の嵐に吹かれながら、気持ちよく散歩する".mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-a-green-dress-and-a-sun-hat-"カラフルなお祭りで楽しい散歩.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-ムンバイ-インド-美しい夕日の中を気持ちよく散歩する.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack] [ビデオパック] [ビデオパック] -taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-ムンバイで楽しい散歩-インド-カラフルな祭りの間に.mp4[/videopack][/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack] - ヨハネスブルグで美しい夕日を見ながら散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack] - 冬の嵐の中、ヨハネスブルグを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack] (英語)。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack] [ビデオパック].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack] [ビデオパック].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-woman-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack] ビデオパック
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-ムンバイ・インド・美しい夕焼けの中を楽しく散歩するシャツ.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-ムンバイ・インド・冬の嵐の中を楽しく散歩するシャツ.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-ムンバイ-インド-カラフルなお祭りの中でシャツを着て楽しい散歩をする.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-シャツで楽しい散歩-ヨハネスブルグ-南アフリカ-美しい夕日の中で.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack][/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-シャツを着て楽しい散歩-ヨハネスブルグ-南アフリカ-カラフルなお祭りの間に.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-シャツを着て楽しい散歩-美しい夕焼けの中-南極大陸.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-シャツを着て気持ちよく散歩 - 冬の嵐の中 - アンタルクティカ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-blue-jeans-and-a-white-t-シャツを着て楽しいお散歩-カラフルなお祭りの間に-南極大陸.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-ムンバイ-インド-美しい夕日の中を散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-ムンバイ-インド-冬の嵐の中の楽しい散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-ムンバイ-インド-カラフルなお祭りで楽しい散歩をする。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-ヨハネスブルグ-南アフリカ-美しい夕日の中を散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack] - 冬の嵐の中、ヨハネスブルグを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-[/videopack]ヨハネスブルグ-南アフリカ-カラフルなフェスティバルの間に楽しい散歩をする.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-"美しい夕日を見ながら散歩する".mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-"冬の嵐に吹かれながら、気持ちよく散歩する".mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-a-green-dress-and-a-sun-hat-"カラフルなお祭りで楽しい散歩.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-ムンバイの美しい夕日を眺めながら散歩するブーツ。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-冬の嵐の中、ムンバイを散歩するブーツ。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-ムンバイ・インド・カラフルなお祭りの中の楽しい散歩.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-[/videopack]ヨハネスブルグ-南アフリカ-美しい夕日の中を楽しく散歩するブーツ。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-[/videopack]冬の嵐の中、ヨハネスブルグを散歩するブーツ。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-[/videopack]ヨハネスブルグ-南アフリカ-カラフルなフェスティバルの間に楽しい散歩をするブーツ。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-[/videopack]美しい夕日の中、心地よい散歩をするブーツの写真。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-"冬の嵐に吹かれながら気持ちよく散歩するブーツ".mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-old-man-wearing-purple-overalls-and-cowboy-[/videopack]色とりどりのお祭りを楽しみながら散歩するブーツの写真。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-ムンバイ・インド・美しい夕焼けの中を楽しく散歩するシャツ.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-冬の嵐の中、ムンバイを楽しく散歩するシャツ.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-ムンバイ-インド-カラフルなお祭りの中で楽しい散歩をするシャツ.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-シャツで楽しい散歩-ヨハネスブルグ-南アフリカ-美しい夕日の中で.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack][/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-シャツを着て楽しい散歩-ヨハネスブルグ-南アフリカ-カラフルなお祭りの間に.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-シャツを着て楽しい散歩-美しい夕焼けの中-南極大陸.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-シャツを着て気持ちよく散歩 - 冬の嵐の中 - アンタルクティカ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-blue-jeans-and-a-white-t-シャツを着て楽しいお散歩-カラフルなお祭りの間に-南極大陸.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-ムンバイ-インド-美しい夕日の中を散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-ムンバイ-インド-冬の嵐の中の楽しい散歩.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-ムンバイ-インド-カラフルなお祭りで楽しい散歩をする。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-ヨハネスブルグ-南アフリカ-美しい夕日の中を散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack] - 冬の嵐の中、ヨハネスブルグを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-[/videopack]ヨハネスブルグ-南アフリカ-カラフルなフェスティバルの間に楽しい散歩をする.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-"美しい夕日を見ながら散歩する".mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-"冬の嵐に吹かれながら、気持ちよく散歩する".mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-a-green-dress-and-a-sun-hat-"カラフルなお祭りで楽しい散歩.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-ムンバイの美しい夕日を眺めながら散歩するブーツ。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-冬の嵐の中、ムンバイを散歩するブーツ。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-ムンバイ・インド・カラフルなお祭りの中の楽しい散歩.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-[/videopack]ヨハネスブルグ-南アフリカ-美しい夕日の中を楽しく散歩するブーツ。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-[/videopack]冬の嵐の中、ヨハネスブルグを散歩するブーツ。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-[/videopack]ヨハネスブルグ-南アフリカ-カラフルなフェスティバルの間に楽しい散歩をするブーツ。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-[/videopack]美しい夕日の中、心地よい散歩をするブーツの写真。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-"冬の嵐に吹かれながら気持ちよく散歩するブーツ".mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/a-toy-robot-wearing-purple-overalls-and-cowboy-[/videopack]色とりどりのお祭りを楽しみながら散歩するブーツの写真。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-ムンバイ・インド・美しい夕日の中を散歩する白いTシャツ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-ムンバイ・インド・冬の嵐を楽しむ白シャツ散歩.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-白Tシャツでムンバイ・インドを楽しく散歩-カラフルなお祭りの最中に.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-白いTシャツでヨハネスブルグを散歩する-美しい夕日の中で-南アフリカ[/videopack][/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-winter-storm.mp4[/videopack](英語)
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-colourful-festival.mp4[/videopack](白シャツで気持ちよく散歩する-ヨハネスブルグ-南アフリカ-カラフルな祭りの間に)
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-白Tシャツで楽しい散歩-美しい夕日の中-南極大陸.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-白いTシャツで冬の嵐を楽しみながら散歩するアンタークティカ.mp4[/videopack] [/videopack
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-blue-jeans-and-a-白シャツで楽しい散歩-カラフルなお祭りの最中に-南極大陸.mp4[/videopack][/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a pleasant-stroll-in-mumbai-india-during a beautiful-sunset.mp4[/videopack] [ビデオパック] [ビデオパック] -sun-hat-taking-apleasant-stroll-in-mumbai-india-during a beautiful-sunset.mp4
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-mumbai-india-during-a-winter-storm.mp4[/videopack] (日本語字幕付き
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-ムンバイ-インド-カラフルなお祭りで楽しいお散歩をする太陽帽子.mp4[/videopack]
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack] [ビデオパック].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack] [ビデオパック].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-a-green-dress-and-a-sun-hat-taking-a-pleasant-stroll-in-antarctica-during-a-colourful-festival.mp4[/videopack] (日本語字幕付き
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking a pleasant-stroll-in-mumbai-india-during a beautiful-sunset.mp4[/videopack] カウボーイブーツを履いてムンバイを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking a pleasant-stroll-in-mumbai-india-during a winter-storm.mp4[/videopack] カウボーイブーツを履いてムンバイを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking a pleasant-stroll-in-mumbai-india-during-a-colourful-festival.mp4[/videopack] カウボーイブーツを履いてムンバイを散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-beautiful-sunset.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-winter-storm.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-johannesburg-south-africa-during-a-colourful-festival.mp4[/videopack].
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking a pleasant-stroll-in-antarctica-during-a-beautiful-sunset.mp4[/videopack] カウボーイブーツを履いて、美しい夕日の中を散歩する。
[videopack width="640" height="360" downloadlink="true"]https://cdn.openai.com/tmp/s/an-adorable-kangaroo-wearing-purple-overalls-and-cowboy-boots-taking a pleasant-stroll-in-antarctica-during-a-winter-storm.mp4[/videopack] カウボーイブーツを履いて、冬の嵐の中を散歩する。
写真やビデオのキュー機能
当ウェブサイトに掲載されている例やビデオは、すべてテキストから変換されています。しかし、Soraは画像や既存の動画を入力として受け付けることもできます。この機能により、シームレスなループ動画の作成、静止画のアニメーション化、動画の再生時間延長など、様々な画像・動画編集を行うことができます。
DALL-Eの写真を動かす
画像とプロンプトだけで、Soraは動画を作成することができます。DALL-E 231とDALL-E 330の画像から生成された動画の例を以下に示します。
ビデオ・タイムストレッチ
Soraは、ビデオを前方または後方に延長することもできる。下の4つのビデオは、すべて生成されたビデオクリップから始まり、後方に伸びる。つまり、この4つの動画は始まりが異なっていても、すべて同じ終わりに収束している。
このテクニックを使って、ビデオを前方や後方に拡大し、完璧な無限ループ効果を作り出すことができた。
革新的なビデオからビデオへの編集
拡散モデリングは、テキストを手がかりとした画像やビデオの編集に新たな地平を開く。SDEdit32は、Soraが事前の例なしに動画のスタイルや環境を変更できるようにする技術である。この技術により、Soraは事前の例なしにビデオのスタイルや環境を変えることができる。
ビデオ間のスムーズなトランジション
また、Soraを使えば、全く異なる2つの動画を滑らかにつなげ、あたかも1つの動画のように自然に移行させることもできます。下の例では、真ん中の動画が左右の動画の要素を微妙にブレンドしているのがわかります。
魔法のような映像の創造
Soraの魅力的な画像を作成する能力は、ビデオに限定されるものではない。私たちは、ガウスノイズのブロックを1フレーム分の空間グリッドに配置することで、このマジックを実現しています。この方法で、Soraは最大解像度2048x2048までのあらゆるサイズの画像を作成することができる。
素晴らしいディテールと驚くほど浅い被写界深度を持つ、秋の日の女性のクローズアップポートレート。
色とりどりの魚や海洋生物が織りなす、活気に満ちたサンゴ礁。
リンゴの木の下にいる若いトラのデジタル・アートワークは、マット・ペインティング・スタイルの細密な美しさを表現している。
雪に覆われた山村、居心地の良いコテージ、そしてオーロラが、まるで50mm F1.2のレンズを装着したデジタル一眼レフカメラで撮影したかのように、絶妙なディテールで展開される。
新たなシミュレーション能力
我々は、大規模なトレーニングの下で、ビデオモデルが魅力的な一連の創発的能力を示すことを発見した。これらの能力は、Soraに現実世界の人、動物、環境をある程度シミュレートする能力を与える。このような創発的能力は、3D空間やオブジェクトなどに対する特定の事前決定を必要としない。
三次元空間コヒーレンス。 Soraは、ダイナミックなパースペクティブの変化を伴う映像を生成する。カメラの位置や角度が変わると、映像の中のキャラクターやシーン要素が3次元空間で首尾一貫して動くことができる。
長距離の連続性とオブジェクトの永続性。 長い動画を生成する際に、時間的な連続性を維持することは課題であった。Soraは通常、短距離依存性と長距離依存性の両方を効果的に処理できることが確認されている。例えば、我々のモデルは、キャラクタ、動物、またはオブジェクトがオクルードされたり、フレームの外に移動したりしても、その連続的な存在を維持することができる。同様に、同じビデオサンプルの中で同じキャラクターを複数回表示することができ、全体を通してそのキャラクターを確実に表示することができます。
世界との交流。 ソラは時に、世界の状態に影響を与えるだけの行動をシミュレートすることができる。例えば、画家がキャンバスに残した筆跡は時間が経っても消えないし、誰かがハンバーガーを食べたときに残る噛み跡も消えない。
デジタル世界のアナログ。 Soraはビデオゲームなどのデジタル処理もシミュレートできる。マインクラフトのゲームキャラクターを基本操作でコントロールしながら、ゲームの世界とそのダイナミクスを高品質でレンダリングできる。これらの機能は、プロンプトとして "Minecraft "という単語を口にするだけで、呼び出すことができる。
これらの特徴は、ビデオモデリングの規模が拡大し続けていることが、物理的な世界だけでなく、デジタル世界(その中にある物体、動物、人間を含む)を高度にシミュレートできる高度なシミュレーターの開発に向けて有望な道であることを示している。
計らう
シミュレーターとしてのSoraには、現在のところ多くの限界がある。例えば、ガラスを割るような基本的な物理的インタラクションを正確にシミュレートすることはできない。食事のようないくつかのインタラクションは、オブジェクトの状態の変化を必ずしも正しく反映しません。私たちはOpenAI そらの紹介ページこのモデルのその他の一般的な不具合については、長いビデオサンプルの不一致や物体の突然の出現といった問題を含めて詳しく説明している。
Soraの既存の能力は、ビデオモデルのスケールを拡大し続けることが、物理世界とデジタル世界、そしてその中の物体、動物、人間を正確にモデル化できる高度なシミュレーターの開発に向けた有望な道であることを示していると我々は信じている。
参考文献
-
Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." international conference.conference on machine learning.
-
Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).
-
Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).
-
Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems.29 (2016).
-
Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation." Proceedings of IEEE conference on computer vision and pattern recognition.パターン認識。
-
Clark, Aidan, Jeff Donahue, and Karen Simonyan. "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).
-
Brooks, Tim, et al. "Generating long videos of dynamic scenes." Advances in Neural Information Processing Systems 35 (2022): 31769-31781.
-
Videogpt:vq-vaeと変換器を使ったビデオ生成」arXiv preprint arXiv:2104.10157 (2021).
-
Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: SpringerCham: Springer Switzerland, 2022.
-
Ho, Jonathan, et al. "Imagen video: High Definition Video Generation with diffusion models.". arXiv preprint arXiv:2210.02303 (2022).
-
Blattmann, Andreas, et al. "Align your latents: high-resolution video synthesis with latent diffusion models." Proceedings of IEEE/CVF.Computer Vision and Pattern Recognition" Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition.
-
Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).
-
Vaswani, Ashish, et al. "Attention is all you need.". 神経情報処理システムの進歩 30 (2017).
-
Brown, Tom, et al. "Language models are few-shot learners.". 神経情報処理システムの進歩 33 (2020): 1877-1901.
-
Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: transformers for image recognition at scale". arXivプレプリント arXiv:2010.11929 (2020).
-
Arnab, Anurag, et al. "Vivit: A video vision transformer". コンピュータビジョンに関するIEEE/CVF国際会議議事録. 2021.
-
He, Kaiming, et al. "Masked autoencoders are scalable vision learners.". コンピュータビジョンとパターン認識に関するIEEE/CVF会議予稿集. 2022.
-
Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution". arXiv preprint arXiv:2307.06304 (2023).
-
Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models.". コンピュータビジョンとパターン認識に関するIEEE/CVF会議予稿集. 2022.
-
Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes.". arXiv preprint arXiv:1312.6114 (2013).
-
Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics". 機械学習国際会議. PMLR, 2015.
-
Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models.". 神経情報処理システムの進歩 33 (2020): 6840-6851.
-
Nichol, Alexander Quinn, and Prafulla Dhariwal. "Improved denoising diffusion probabilistic models.". 機械学習国際会議. PMLR、2021年
-
Dhariwal, Prafulla, and Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis.". 神経情報処理システムの進歩. 2021.
-
Karras, Tero, et al. "Elucidating design space of diffusion-based generative models". 神経情報処理システムの進歩 35 (2022): 26565-26577.
-
Peebles, William, and Saining Xie. "Scalable diffusion models with transformers.". IEEE/CVFコンピュータビジョン国際会議論文集. 2023.
-
Chen, Mark, et al. "Generative pre-training from pixels". 機械学習国際会議. PMLR、2020年
-
Ramesh, Aditya, et al. "Zero shot text-to-image generation". 機械学習国際会議. PMLR、2021年
-
Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation". arXiv preprint arXiv:2206.10789 2.3 (2022): 5.
-
Betker, James, et al. "Improving image generation with better captions.". https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8
-
Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents". arXiv preprint arXiv:2204.06125 1.2 (2022): 3.
-
Meng, Chenlin, et al. "Sdedit: guided image synthesis and editing with stochastic differential equations.". arXiv preprint arXiv:2108.01073 (2021).
著者紹介
- ティム・ブルックス
- ビル・ピーブルス
- コナー・ホームズ
- ウィル・デプエ
- 郭裕飛
- リー・ジン
- デヴィッド・シュナー
- ジョー・テイラー
- トロイ・ルーマン
- エリック・ルーマン
- クラレンス・ウィン・イン
- リッキー・ワン
- アディティヤ・ラメシュ
謝辞
引用
OpenAI et al.として引用し、引用には以下のビブテックスを使用してください。 https://openai.com/bibtex/videoworldsimulators2024.bib