AI Personal Learning
und praktische Anleitung
豆包Marscode1

Magic 1-For-1: effizientes Open-Source-Projekt zur Erstellung von Videos, das behauptet, ein einminütiges Video in einer Minute zu erstellen

Allgemeine Einführung

Magic 1-For-1 ist ein effizientes Modell zur Videogenerierung, das die Speichernutzung optimiert und die Latenzzeit bei der Inferenz verringert. Magic 1-For-1 kann qualitativ hochwertige einminütige Videoclips in weniger als einer Minute für Szenarien erzeugen, in denen kurze Videos schnell erzeugt werden müssen. Das Projekt wurde von Forschern der Universität Peking, Hedra Inc. und Nvidia entwickelt, und der Code und die Modellgewichte sind auf GitHub öffentlich zugänglich.

Magic 1-For-1: 高效生成视频的开源项目,号称在一分钟内生成一分钟的视频-1


 

Funktionsliste

  • Text-zu-Bild-Generierung: Konvertiert die eingegebene Textbeschreibung in ein Bild.
  • Bild-zu-Video-Generierung: Konvertieren Sie generierte Bilder in Videoclips.
  • Effiziente Speichernutzung: Optimiert die Speichernutzung für Umgebungen mit nur einer GPU.
  • Schnelle Inferenz: Verringerung der Inferenzlatenz für eine schnelle Videogenerierung.
  • Download von Modellgewichten: Hier finden Sie Links zum Download von bereits trainierten Modellgewichten.
  • Umgebungseinrichtung: Hier finden Sie eine detaillierte Anleitung zur Einrichtung der Umgebung und zur Installation von Abhängigkeiten.

 

Hilfe verwenden

Umgebungseinstellungen

  1. Installieren Sie git-lfs:
   sudo apt-get install git-lfs
  1. Die Conda-Umgebung wird erstellt und aktiviert:
   conda create -n video_infer python=3.9
conda activate video_infer
  1. Installieren Sie die Projektabhängigkeiten:
   pip install -r requirements.txt

Download Modellgewichte

  1. Erstellen Sie ein Verzeichnis zum Speichern der trainierten Gewichte:
   mkdir pretrained_weights
  1. Download Magische 1-für-1-Gewichte:
   wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>
  1. Laden Sie die Komponente "Hugging Face" herunter:
   huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False
huggingface-cli download openai/clip-vit-large-patch14 --local_dir pretrained_weights/text_encoder_2 --local_dir_use_symlinks False

Video generieren

  1. Führen Sie die folgenden Befehle für die Text- und Bild-zu-Video-Generierung aus:
   python test_ti2v.py --config configs/test/text_to_video/4_step_ti2v.yaml --quantization False
  1. Oder verwenden Sie das mitgelieferte Skript:
   bash scripts/generate_video.sh

Detaillierte Funktionsabläufe

  1. Text-zu-Bild-GenerierungGeben Sie eine Textbeschreibung ein und das Modell generiert ein entsprechendes Bild.
  2. Bild-zu-Video-GenerierungEingabe der generierten Bilder in das Videogenerierungsmodul, um kurze Videoclips zu erstellen.
  3. Effiziente SpeichernutzungGewährleistung eines effizienten Betriebs auch in Umgebungen mit nur einer GPU durch Optimierung der Speichernutzung.
  4. schnelle InferenzReduzierung der Inferenzverzögerung und schnelle Videogenerierung für Szenarien, die eine schnelle Generierung von kurzen Videos erfordern.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Magic 1-For-1: effizientes Open-Source-Projekt zur Erstellung von Videos, das behauptet, ein einminütiges Video in einer Minute zu erstellen
de_DEDeutsch