AI Personal Learning
und praktische Anleitung

Pyramid Flow: eine von Racer eingeführte Open-Source-Version von "Kringle", die auf SD3 basiert und auf Grafikprozessoren mit weniger als 8 GB läuft (Version mit Ein-Klick-Bereitstellung)

Allgemeine Einführung

Pyramid Flow ist eine effiziente autoregressive Methode zur Videogenerierung, die auf der Flow-Matching-Technik basiert. Die Methode ermöglicht die Generierung und Dekomprimierung von Videoinhalten mit höherer Recheneffizienz durch Interpolation zwischen verschiedenen Auflösungen und Rauschpegeln. Pyramid Flow ist in der Lage, qualitativ hochwertige 10-Sekunden-Videos mit einer Auflösung von 768p und 24 FPS zu generieren, und unterstützt die Generierung von Bildern in Videos. Das gesamte Framework ist durchgängig optimiert und verwendet ein einziges DiT-Modell, das in 20,7k A100 GPU-Trainingsstunden trainiert wurde.

Pyramid Flow: die Open-Source-Version von Racer \

Online-Erfahrung: https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow


 

Funktionsliste

  • Effiziente VideoerstellungErzeugt hochwertige 10-Sekunden-Videos mit einer Auflösung von 768p bei 24 FPS.
  • Bild-zu-Video-GenerierungUnterstützung für die Erstellung von Videos aus Bildern.
  • Unterstützung mehrerer AuflösungenModellprüfpunkte sind in den Auflösungen 768p und 384p verfügbar.
  • CPU-OffloadZwei Arten von CPU-Offloading werden unterstützt, um den Speicherbedarf der GPU zu reduzieren.
  • Multi-GPU-UnterstützungBietet Multi-GPU-Inferenzskripte, die Sequenzparallelität unterstützen, um Speicher pro GPU zu sparen.

 

Hilfe verwenden

Umgebungseinstellungen

  1. Erstellen Sie eine Umgebung mit conda:
    cd Pyramid-Flow
    conda create --name pyramid-flow python=3.8.10
    conda activate pyramid-flow
    
  2. Installieren Sie die Abhängigkeit:
    pip install -r anforderungen.txt
    

Herunterladen und Laden von Modellen

  1. Laden Sie Modellprüfpunkte von Huggingface herunter:
    # Download 768p und 384p Modellprüfpunkte
    
  2. Modelle laden:
    model_dtype, torch_dtype = 'bf16', torch.bfloat16
    model = PyramidDiTForVideoGeneration(
        'PFAD',  Checkpoint-Katalog für #-Downloads
        model_dtype.
        model_variant=diffusion_transformer_768p'.,  # oder 'diffusion_transformer_384p'.
    )
    model.vae.enable_tiling()
    model.enable_sequential_cpu_offload()
    

Text-zu-Video-Generierung

  1. Legen Sie die Erzeugungsparameter fest und erzeugen Sie das Video:
    frames = model.generate(
        prompt="Ihr SMS-Alarm.",
        num_inference_steps=[20, 20, 20],
        video_num_inference_steps=[10, 10, 10],
        height=768,
        width=1280,
        temp=16,  # temp=16: 5s, temp=31: 10s
        anleitung_skala=9.0,  # 384p Einstellung auf 7
        video_leitfaden_skala=5.0,
        output_type="pil",
        save_memory=Wahr)
    )
    export_to_video(frames, , ) ". /text_zu_video_beispiel.mp4", fps=24)
    

Bild-zu-Video-Generierung

  1. Legen Sie die Erzeugungsparameter fest und erzeugen Sie das Video:
    Aufforderung = "FPV-Flug über die Große Mauer"
    mit torch.no_grad(), torch.cuda.amp.autocast(enabled=Wahr, dtype=torch_dtype).
        frames = model.generate_i2v(
            prompt=prompt, , input_image=image, , dtype=torch_dtype
            input_image=image, num_inference_steps=[[], dtype=torch_dtype
            num_inference_steps=[10, 10, 10],
            temp=16,
            video_guidance_scale=4.0,
            output_type="pil",
            save_memory=Wahr)
        )
    export_to_video(frames, , ) ". /image_to_video_sample.mp4", fps=24)
    

Multi-GPU-Inferenz

  1. Inferenz mit mehreren GPUs:
    # Ausführen von Inferenzskripten auf 2 oder 4 GPUs
    

 

 

Niu One Click Deployment Edition

Der Entschlüsselungscode für die Startdatei befindet sich in der Download-Adresse. Wenn der Download des Modells nach dem Start häufig unterbrochen wird, lesen Sie das offizielle Dokument, um die Modelldatei separat herunterzuladen, die etwa 30 GB groß ist.

Chef-KI-AustauschkreisDieser Inhalt wurde vom Autor versteckt. Bitte geben Sie den Verifizierungscode ein, um den Inhalt zu sehen.
Captcha:
Bitte beachten Sie diese Website WeChat öffentliche Nummer, Antwort "CAPTCHA, eine Art Challenge-Response-Test (Computer)", erhalten Sie den Verifizierungscode. Suchen Sie in WeChat nach "Chef-KI-Austauschkreis"oder"Looks-AI" oder WeChat, indem Sie die rechte Seite des QR-Codes scannen, können Sie die öffentliche WeChat-Nummer dieser Website aufrufen.

 

Verwandte Dokumente Download-Adresse
© Download-Ressourcen Urheberrecht gehört dem Autor; alle Ressourcen auf dieser Website sind aus dem Netz, nur für Lernzwecke, bitte unterstützen Sie die ursprüngliche Version!
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Pyramid Flow: eine von Racer eingeführte Open-Source-Version von "Kringle", die auf SD3 basiert und auf Grafikprozessoren mit weniger als 8 GB läuft (Version mit Ein-Klick-Bereitstellung)

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)