AI Personal Learning
und praktische Anleitung

Pyramid Flow: eine von Racer eingeführte Open-Source-Version von "Kringle", die auf SD3 basiert und auf Grafikprozessoren mit weniger als 8 GB läuft (Version mit Ein-Klick-Bereitstellung)

Allgemeine Einführung

Pyramid Flow ist eine effiziente autoregressive Methode zur Videogenerierung, die auf der Flow-Matching-Technik basiert. Die Methode ermöglicht die Generierung und Dekomprimierung von Videoinhalten mit höherer Recheneffizienz durch Interpolation zwischen verschiedenen Auflösungen und Rauschpegeln. Pyramid Flow ist in der Lage, qualitativ hochwertige 10-Sekunden-Videos mit einer Auflösung von 768p und 24 FPS zu generieren, und unterstützt die Generierung von Bildern in Videos. Das gesamte Framework ist durchgängig optimiert und verwendet ein einziges DiT-Modell, das in 20,7k A100 GPU-Trainingsstunden trainiert wurde.

Pyramid Flow: die Open-Source-Version von Racer \

Online-Erfahrung: https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow


 

Funktionsliste

  • Effiziente VideoerstellungErzeugt hochwertige 10-Sekunden-Videos mit einer Auflösung von 768p bei 24 FPS.
  • Bild-zu-Video-GenerierungUnterstützung für die Erstellung von Videos aus Bildern.
  • Unterstützung mehrerer AuflösungenModellprüfpunkte sind in den Auflösungen 768p und 384p verfügbar.
  • CPU-OffloadZwei Arten von CPU-Offloading werden unterstützt, um den Speicherbedarf der GPU zu reduzieren.
  • Multi-GPU-UnterstützungBietet Multi-GPU-Inferenzskripte, die Sequenzparallelität unterstützen, um Speicher pro GPU zu sparen.

 

Hilfe verwenden

Umgebungseinstellungen

  1. Erstellen Sie eine Umgebung mit conda:
    cd Pyramid-Flow
    conda create --name pyramid-flow python=3.8.10
    conda activate pyramid-flow
    
  2. Installieren Sie die Abhängigkeit:
    pip install -r anforderungen.txt
    

Herunterladen und Laden von Modellen

  1. Laden Sie Modellprüfpunkte von Huggingface herunter:
    # Download 768p und 384p Modellprüfpunkte
    
  2. Modelle laden:
    model_dtype, torch_dtype = 'bf16', torch.bfloat16
    model = PyramidDiTForVideoGeneration(
        'PFAD',  Checkpoint-Katalog für #-Downloads
        model_dtype.
        model_variant=diffusion_transformer_768p'.,  # oder 'diffusion_transformer_384p'.
    )
    model.vae.enable_tiling()
    model.enable_sequential_cpu_offload()
    

Text-zu-Video-Generierung

  1. Legen Sie die Erzeugungsparameter fest und erzeugen Sie das Video:
    frames = model.generate(
        prompt="Ihr SMS-Alarm.",
        num_inference_steps=[20, 20, 20],
        video_num_inference_steps=[10, 10, 10],
        height=768,
        width=1280,
        temp=16,  # temp=16: 5s, temp=31: 10s
        anleitung_skala=9.0,  # 384p Einstellung auf 7
        video_leitfaden_skala=5.0,
        output_type="pil",
        save_memory=Wahr)
    )
    export_to_video(frames, , ) ". /text_zu_video_beispiel.mp4", fps=24)
    

Bild-zu-Video-Generierung

  1. Legen Sie die Erzeugungsparameter fest und erzeugen Sie das Video:
    Aufforderung = "FPV-Flug über die Große Mauer"
    mit torch.no_grad(), torch.cuda.amp.autocast(enabled=Wahr, dtype=torch_dtype).
        frames = model.generate_i2v(
            prompt=prompt, , input_image=image, , dtype=torch_dtype
            input_image=image, num_inference_steps=[[], dtype=torch_dtype
            num_inference_steps=[10, 10, 10],
            temp=16,
            video_guidance_scale=4.0,
            output_type="pil",
            save_memory=Wahr)
        )
    export_to_video(frames, , ) ". /image_to_video_sample.mp4", fps=24)
    

Multi-GPU-Inferenz

  1. Inferenz mit mehreren GPUs:
    # Ausführen von Inferenzskripten auf 2 oder 4 GPUs
    

 

 

Niu One Click Deployment Edition

Der Entschlüsselungscode für die Startdatei befindet sich in der Download-Adresse. Wenn der Download des Modells nach dem Start häufig unterbrochen wird, lesen Sie das offizielle Dokument, um die Modelldatei separat herunterzuladen, die etwa 30 GB groß ist.

Chef-KI-AustauschkreisDieser Inhalt wurde vom Autor versteckt. Bitte geben Sie den Verifizierungscode ein, um den Inhalt zu sehen.
Captcha:
Bitte beachten Sie diese Website WeChat öffentliche Nummer, Antwort "CAPTCHA, eine Art Challenge-Response-Test (Computer)", erhalten Sie den Verifizierungscode. Suchen Sie in WeChat nach "Chef-KI-Austauschkreis"oder"Looks-AI" oder WeChat, indem Sie die rechte Seite des QR-Codes scannen, können Sie die öffentliche WeChat-Nummer dieser Website aufrufen.

 

Verwandte Dokumente Download-Adresse
© Download-Ressourcen Urheberrecht gehört dem Autor; alle Ressourcen auf dieser Website sind aus dem Netz, nur für Lernzwecke, bitte unterstützen Sie die ursprüngliche Version!
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Pyramid Flow: eine von Racer eingeführte Open-Source-Version von "Kringle", die auf SD3 basiert und auf Grafikprozessoren mit weniger als 8 GB läuft (Version mit Ein-Klick-Bereitstellung)

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)