AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜

Magic 1-For-1:1分で1分の動画を生成すると謳う、効率的な動画生成オープンソースプロジェクト

はじめに

Magic 1-For-1は、メモリ使用量を最適化し、推論レイテンシを削減するように設計された効率的なビデオ生成モデルである。このモデルは、テキストからビデオへの生成タスクを、より効率的な学習と蒸留のために、テキストから画像への生成と画像からビデオへの生成という2つのサブタスクに分解する。Magic 1-For-1は、短いビデオを迅速に生成する必要があるシナリオのために、高品質の1分ビデオクリップを1分未満で生成することができる。このプロジェクトは北京大学、Hedra Inc.、Nvidiaの研究者によって開発され、コードとモデルの重みはGitHubで公開されている。

Magic 1-For-1: 高效生成视频的开源项目,号称在一分钟内生成一分钟的视频-1


 

機能一覧

  • テキストから画像への変換:入力されたテキスト説明を画像に変換します。
  • 画像からビデオへの変換:生成された画像をビデオクリップに変換します。
  • 効率的なメモリ使用:シングルGPU環境でのメモリ使用を最適化します。
  • 高速推論:高速ビデオ生成のための推論待ち時間の短縮。
  • モデル重みのダウンロード: 訓練済みモデル重みをダウンロードするためのリンクを提供します。
  • 環境セットアップ: 詳細な環境セットアップと依存関係のインストールガイドを提供します。

 

ヘルプの使用

環境設定

  1. git-lfsをインストールします:
   sudo apt-get install git-lfs
  1. Conda環境が作成され、アクティベートされる:
   conda create -n video_infer python=3.9
conda activate video_infer
  1. プロジェクトの依存関係をインストールします:
   pip install -r requirements.txt

モデルウェイトのダウンロード

  1. 事前に訓練された重みを格納するディレクトリを作成する:
   mkdir pretrained_weights
  1. 魔法の1-For-1ウェイトをダウンロードする:
   wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>
  1. Hugging Faceコンポーネントをダウンロードする:
   huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False
huggingface-cli download openai/clip-vit-large-patch14 --local_dir pretrained_weights/text_encoder_2 --local_dir_use_symlinks False

ビデオの作成

  1. 以下のコマンドを実行して、テキストと画像をビデオに変換する:
   python test_ti2v.py --config configs/test/text_to_video/4_step_ti2v.yaml --quantization False
  1. または、提供されたスクリプトを使用する:
   bash scripts/generate_video.sh

詳細な機能操作の流れ

  1. テキストから画像への変換テキストによる説明を入力すると、モデルが対応する画像を生成します。
  2. 画像からビデオへの変換生成された画像をビデオ生成モジュールに入力し、短いビデオクリップを生成します。
  3. 効率的なメモリ使用メモリ使用量を最適化することで、シングルGPU環境でも効率的な動作を保証します。
  4. 高速推論短い動画を高速に生成する必要があるシナリオにおいて、推論遅延を低減し、高速な動画生成を実現する。
無断転載を禁じます:チーフAIシェアリングサークル " Magic 1-For-1:1分で1分の動画を生成すると謳う、効率的な動画生成オープンソースプロジェクト
ja日本語