Step-Video-T2V：多言語入力とロングビデオ生成をサポートするVincennesビデオモデル

1.7K 00

はじめに

Step-Video-T2VはStepFun AI (Step Star)による先進的なテキストから動画への変換モデルです。このモデルには30億のパラメータがあり、最大204fpsの動画を生成することができる。深く圧縮された可変オートエンコーダ（VAE）により、このモデルは16x16の空間圧縮と8xの時間圧縮を達成し、学習と推論の効率を向上させている。Step-Video-T2Vは動画生成の分野において、特に動画の動きと効率の面で優れた性能を発揮する。しかし、複雑な動きを扱うにはまだ課題がある。このモデルはオープンソースであり、ユーザーはGitHubにアクセスしてコードを貢献することができる。

機能一覧

高品質ビデオの生成：30億のパラメータを使用して、最大204 fpsのビデオを生成します。
深い圧縮技術：深い圧縮変分自己エンコーダを使用した16x16空間圧縮と8x時間圧縮。
バイリンガルサポート：英語と中国語のテキストアラートをサポート。
オープンソースとコミュニティサポート：モデルとベンチマークデータセットは、イノベーションを促進し、クリエイターに力を与えるためにオープンソース化されている。

ヘルプの使用

設置プロセス

GitHubリポジトリのクローン：

git clone https://github.com/stepfun-ai/Step-Video-T2V.git

プロジェクト・カタログにアクセスする：
```
cd Step-Video-T2V
```

仮想環境を作成し、起動する：

conda create -n stepvideo python=3.10
conda activate stepvideo

依存関係をインストールします：

pip install -e .
pip install flash-attn --no-build-isolation  ## flash-attn是可选的

使用ガイドライン

ビデオの作成

ファイルに保存するテキストプロンプトを用意する。prompt.txt::
```
飞机在蓝天中飞翔
```

ビデオ生成スクリプトを実行する：

python generate_video.py --input prompt.txt --output video.mp4

詳細な機能操作の流れ

高画質ビデオの作成::
- テキスト入力：ユーザーがビデオの内容を説明するテキストを入力する。
- モデル処理：Step-Video-T2Vモデルはテキストを解析し、ビデオを生成する。
- ビデオ出力：生成されたビデオはMP4形式で保存され、ユーザーがいつでも閲覧・共有できます。
ディープ・コンプレッション・テクノロジー::
- 空間圧縮：16x16空間圧縮技術により、ビデオ生成の効率を向上。
- 時間圧縮：8倍の時間圧縮技術により、ビデオ生成速度と品質がさらに最適化されています。
バイリンガルサポート::
- 英語サポート：ユーザーが英語のテキストを入力すると、モデルが自動的に解析し、対応するビデオを生成します。
- 中国語サポート：ユーザーは中国語テキストを入力することができ、モデルも対応するビデオを生成することができ、多言語ユーザーのニーズをサポートします。
オープンソースとコミュニティ・サポート::
- オープンソース・コード：ユーザーはGitHubでモデルの全コードにアクセスし、自分自身でデプロイしたり修正したりすることができる。
- コミュニティへの貢献: ユーザーは、モデルの改善や最適化に参加するために、コードの貢献を提出することができます。

シングルGPUによる推論と定量化

Step-Video-T2Vプロジェクトは、シングルGPUによる推論と定量化をサポートし、必要なグラフィックス・メモリ量を大幅に削減します。以下をご参照ください関連例詳細はこちら。

ベストプラクティスの推論設定

Step-Video-T2Vは推論設定において良好な性能を発揮し、一貫して忠実で動的な動画を生成する。しかし、我々の実験は、推論ハイパーパラメータのバリエーションが生成品質に影響を与えることを示している。

モデル	infer_steps	cfg_scale	タイムシフト	フレーム数
ステップビデオ-T2V	30-50	9.0	13.0	204
ステップ-ビデオ-T2V-ターボ（推論ステップ）蒸留)	10-15	5.0	17.0	204

モデルダウンロード

モデリング	ハギングフェイス	モデルスコープ 🤖 モデルスコープ
ステップビデオ-T2V	ダウンロード	ダウンロード
ステップ-ビデオ-T2V-ターボ（推論ステップ蒸留）	ダウンロード	ダウンロード