はじめに
SkyReels-V2は、SkyworkAIによって開発されたオープンソースの動画生成モデルです。テキストから動画へ(T2V)、画像から動画へ(I2V)の両方のタスクに対して、高度な拡散強制技術により、長さ無制限の動画生成をサポートします。ユーザーは、テキスト記述または入力画像を使用して、高品質の映画品質のビデオコンテンツを生成することができます。このモデルは、KlingやRunway-Gen4などの商用モデルに匹敵する性能を持ち、オープンソースコミュニティで高い実績を誇っています。 開発者、クリエイター、研究者に適した柔軟な推論パターンを提供し、SkyReels-V2のコードとモデルの重みはGitHubで公開されているため、簡単にダウンロードして導入することができます。
機能一覧
- 長さ無制限のビデオ生成ショートフィルムから長編映画まで、あらゆる長さのビデオ生成に対応。
- テキストからビデオへ(T2V)テキストプロンプトを使用して、説明文に一致するビデオコンテンツを生成します。
- イメージ・トゥ・ビデオ(I2V)入力画像に基づき、画像の特性を維持したままダイナミックビデオを生成する。
- マルチモーダルサポート大規模言語モデリング(MLLM)と強化学習を組み合わせて、ビデオ生成の品質を向上。
- ストーリー・ジェネレーションストーリーロジックに合ったビデオストーリーボードを自動生成します。
- カメラコントロールカメラアングルや動きのカスタマイズをサポートし、監督の視点を提供します。
- 多被験者コヒーレンスSkyReels-A2システムでマルチロールビデオのビジュアル一貫性を確保。
- 効率的な推論フレームワークマルチGPU推論をサポートし、生成速度とリソース使用を最適化します。
ヘルプの使用
設置プロセス
SkyReels-V2はPythonベースのオープンソースプロジェクトです。詳しいインストール手順は以下の通りです:
- クローン倉庫
ターミナルを開き、以下のコマンドを実行してSkyReels-V2のコードを取得します:git clone https://github.com/SkyworkAI/SkyReels-V2 cd SkyReels-V2
- 仮想環境の構築
依存関係の衝突を避けるため、Python 3.10.12を使用して仮想環境を作成することを推奨します:conda create -n skyreels-v2 python=3.10 conda activate skyreels-v2
- 依存関係のインストール
プロジェクトに必要なPythonライブラリをインストールし、実行する:pip install -r requirements.txt
- モデルウェイトのダウンロード
SkyReels-V2のモデルウエイトはHugging Faceにあります:pip install -U "huggingface_hub[cli]" huggingface-cli download Skywork/SkyReels-V2 --local-dir ./models
十分なディスク容量があることを確認してください(モデルのサイズは数十ギガバイトになることもあります)。
- ハードウェア要件
- 最小構成シングルブロックのRTX 4090(24GB VRAM)は、FP8をサポートし、メモリ要件を定量的に削減します。
- 推奨構成効率的な並列推論をサポートするために、複数のGPU(例えば、4-8台のA100)を搭載。
- 少なくとも32GBのシステムメモリと100GBのディスク容量。
使用方法
SkyReels-V2には、Text to Video(T2V)とImage to Video(I2V)の2つの主な機能があります。具体的な操作手順は以下の通りです:
テキストからビデオへ(T2V)
- キューの準備
例えば、ビデオの内容を説明するテキストプロンプトを書く:A serene lake surrounded by towering mountains, with swans gliding across the water.
不要な要素を避けるために、ネガティブキューを追加することができる:
low quality, deformation, bad composition
- 生成されたスクリプトを実行する
修正generate_video.py
パラメータ、解像度、フレームレートなどを設定する:python generate_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-540P" --prompt "A serene lake surrounded by mountains" --num_frames 97 --fps 24 --outdir ./output
--model_id
例:540P、720P)。--num_frames
ビデオフレームレートを設定します。--fps
フレームレート(デフォルト24)。--outdir
出力ビデオ保存パス。
- 出力を見る
生成されたビデオはMP4形式で保存されます。output/serene_lake_42_0.mp4
.
イメージ・トゥ・ビデオ(I2V)
- 入力画像の準備
解像度がモデル(デフォルトは960x544)と一致するように、高画質の画像(PNGやJPGなど)を用意してください。 - 生成されたスクリプトを実行する
あるgenerate_video.py
画像パスをpython generate_video.py --model_id "Skywork/SkyReels-V2-I2V-14B-540P" --prompt "A warrior fighting in a forest" --image ./input_image.jpg --num_frames 97 --fps 24 --outdir ./output
--image
画像パスを入力します。- その他のパラメーターはT2Vと同様である。
- 最適化設定
- 利用する
--guidance_scale
(デ フ ォル ト 6.0) テキス ト ステア リ ングの強度を調整する。 - 利用する
--inference_steps
(デフォルト30) 生成の質をコントロールし、ステップが多いほど質は高くなるが、時間がかかる。 - 使い始める
--offload
低グラフィックメモリデバイス用にメモリ使用量を最適化。
- 利用する
注目の機能操作
- 長さ無制限のビデオ
SkyReels-V2はDiffusion Forcingテクノロジーにより、非常に長いビデオの生成をサポートします。長いビデオの推論スクリプトを実行します:python inference_long_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-720P" --prompt "A sci-fi movie scene" --num_frames 1000
- 97~192フレームずつ分割して生成し、ポストプロダクション・ツールでつなぎ合わせることを推奨する。
- ストーリー・ジェネレーション
SkyReels-A2システムのストーリー生成機能を使って、プロットの説明を入力します:A hero’s journey through a futuristic city, facing challenges.
走っている:
python story_generate.py --prompt "A hero’s journey" --output story_video.mp4
システムは絵コンテを含むビデオを生成し、シーンやショットを自動的に配置する。
- カメラコントロール
とおす--camera_angle
パラメータはレンズビューを設定します("frontal "や "profile "など):python generate_video.py --prompt "A car chase" --camera_angle "profile" --outdir ./output
- 多被験者コヒーレンス
SkyReels-A2はマルチキャラクターシーンに対応しています。複数の参考画像を用意しています:python multi_subject.py --prompt "Two characters talking" --images "char1.jpg,char2.jpg" --outdir ./output
映像の中でキャラクターが視覚的に一貫していることを確認する。
最適化とデバッグ
- 記憶障害イネーブル
--quant
FP8による定量、または--offload
一部の計算をCPUにオフロードする。 - 品質を生み出す増加
--inference_steps
(例えば50)または--guidance_scale
(例えば8.0)。 - 地域支援GitHubのIssuesをチェックして問題を解決するか、次のように参加してください。 スカイリール コミュニティ・ディスカッション
アプリケーションシナリオ
- ショートビデオ制作
クリエイターは、T2V機能を使ってテキストから短いビデオクリップを素早く生成することができ、ソーシャルメディアコンテンツの制作に適している。 - 映画プリプロダクション
監督は、長さ無制限のビデオとストーリー生成機能を使用して、映画の予告編やコンセプトフィルムを作成し、初期費用を削減することができます。 - バーチャルeコマース・ショーケース
I2V機能を使って、商品写真をダイナミックな動画に変換し、バーチャルなシーンで商品の使用方法を見せることができます。 - 教育用アニメーション
教師は、科学実験の過程など、複雑な概念を視覚化するために、テキストの説明から教育用アニメーションを生成することができます。 - ゲーム開発
開発者はゲームシーンやキャラクターアニメーションを生成し、プロトタイピングやトランジションの素材として使用することができます。
品質保証
- SkyReels-V2はどの解像度に対応していますか?
現在、540P(960x544)と720P(1280x720)をサポートしており、将来的にはより高い解像度に拡大する可能性がある。 - どのくらいのビデオメモリが必要ですか?
シングルRTX 4090(24GB)で基本的な推論を実行し、マルチGPU構成で生映像や成長した映像を高速化できる。 - 生成されたビデオの品質を向上させるには?
推論のステップ数を増やす (--inference_steps
)、プロンプトの単語を最適化する、または高品質の入力画像を使用する。 - リアルタイム生成に対応しているか?
現在のところオフライン生成だが、リアルタイム生成にはより高いハードウェアサポートが必要で、将来的には最適化されるかもしれない。 - モデルウエイトは無料ですか?
はい、SkyReels-V2は完全にオープンソースで、ウェイトはHugging Faceから無料でダウンロードできます。