AIパーソナル・ラーニング
と実践的なガイダンス
資源推薦1

Step-Video-T2V:多言語入力とロングビデオ生成をサポートするVincennesビデオモデル

はじめに

Step-Video-T2VはStepFun AI (Step Star)による先進的なテキストから動画への変換モデルです。このモデルには30億のパラメータがあり、最大204fpsの動画を生成することができる。深く圧縮された可変オートエンコーダ(VAE)により、このモデルは16x16の空間圧縮と8xの時間圧縮を達成し、学習と推論の効率を向上させている。Step-Video-T2Vは動画生成の分野において、特に動画の動きと効率の面で優れた性能を発揮する。しかし、複雑な動きを扱うにはまだ課題がある。このモデルはオープンソースであり、ユーザーはGitHubにアクセスしてコードを貢献することができる。


 

機能一覧

  • 高品質ビデオの生成:30億のパラメータを使用して、最大204 fpsのビデオを生成します。
  • 深い圧縮技術:深い圧縮変分自己エンコーダを使用した16x16空間圧縮と8x時間圧縮。
  • バイリンガルサポート:英語と中国語のテキストアラートをサポート。
  • オープンソースとコミュニティサポート:モデルとベンチマークデータセットは、イノベーションを促進し、クリエイターに力を与えるためにオープンソース化されている。

 

ヘルプの使用

設置プロセス

  1. GitHubリポジトリのクローン:
    git clone https://github.com/stepfun-ai/Step-Video-T2V.git
    
  2. プロジェクト・カタログにアクセスする:
    cdステップビデオ-T2V
    
  3. 仮想環境を作成し、起動する:
    conda create -n stepvideo python=3.10
    conda stepvideoをアクティブにする
    
  4. 依存関係をインストールします:
    pip install -e .
    pip install flash-attn --no-build-isolation ## flash-attnはオプションです。
    

使用ガイドライン

ビデオの作成

  1. ファイルに保存するテキストプロンプトを用意する。prompt.txt::
    青空を飛ぶ飛行機
    
  2. ビデオ生成スクリプトを実行する:
    python generate_video.py --input prompt.txt --output video.mp4
    

詳細な機能操作の流れ

  1. 高画質ビデオの作成::
    • テキスト入力:ユーザーがビデオの内容を説明するテキストを入力する。
    • モデル処理:Step-Video-T2Vモデルはテキストを解析し、ビデオを生成する。
    • ビデオ出力:生成されたビデオはMP4形式で保存され、ユーザーがいつでも閲覧・共有できます。
  2. ディープ・コンプレッション・テクノロジー::
    • 空間圧縮:16x16空間圧縮技術により、ビデオ生成の効率を向上。
    • 時間圧縮:8倍の時間圧縮技術により、ビデオ生成速度と品質がさらに最適化されています。
  3. バイリンガルサポート::
    • 英語サポート:ユーザーが英語のテキストを入力すると、モデルが自動的に解析し、対応するビデオを生成します。
    • 中国語サポート:ユーザーは中国語テキストを入力することができ、モデルも対応するビデオを生成することができ、多言語ユーザーのニーズをサポートします。
  4. オープンソースとコミュニティ・サポート::
    • オープンソース・コード:ユーザーはGitHubでモデルの全コードにアクセスし、自分自身でデプロイしたり修正したりすることができる。
    • コミュニティへの貢献: ユーザーは、モデルの改善や最適化に参加するために、コードの貢献を提出することができます。

シングルGPUによる推論と定量化

Step-Video-T2Vプロジェクトは、シングルGPUによる推論と定量化をサポートし、必要なグラフィックス・メモリ量を大幅に削減します。以下をご参照ください関連例詳細はこちら。

ベストプラクティスの推論設定

Step-Video-T2Vは推論設定において良好な性能を発揮し、一貫して忠実で動的な動画を生成する。しかし、我々の実験は、推論ハイパーパラメータのバリエーションが生成品質に影響を与えることを示している。

モデル infer_steps cfg_scale タイムシフト フレーム数
ステップビデオ-T2V 30-50 9.0 13.0 204
ステップ-ビデオ-T2V-ターボ(推論ステップ) 蒸留) 10-15 5.0 17.0 204

モデルダウンロード

モデリング ハギングフェイス モデルスコープ 🤖 モデルスコープ
ステップビデオ-T2V ダウンロード ダウンロード
ステップ-ビデオ-T2V-ターボ(推論ステップ蒸留) ダウンロード ダウンロード
コンテンツ2
無断転載を禁じます:チーフAIシェアリングサークル " Step-Video-T2V:多言語入力とロングビデオ生成をサポートするVincennesビデオモデル

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語