AI Personal Learning
und praktische Anleitung
Ressource Empfehlung 1

Hallo2: Audio-gesteuerte Erzeugung von lippensynchronen/ausdrucks-synchronen Portraitvideos (Ein-Klick-Installation für Windows)

Allgemeine Einführung

Hallo2 ist ein Open-Source-Projekt, das gemeinsam von der Fudan-Universität und Baidu entwickelt wurde, um hochauflösende Porträtanimationen durch audiogesteuerte Generierung zu erzeugen. Das Projekt nutzt fortschrittliche Generative Adversarial Networks (GAN) und Techniken zur zeitlichen Ausrichtung, um eine 4K-Auflösung und eine Videogeschwindigkeit von bis zu einer Stunde zu erreichen. Hallo2 unterstützt auch Textaufforderungen, um die Vielfalt und Kontrollierbarkeit der generierten Inhalte zu verbessern.

Hallo3 wurde veröffentlicht und ermöglicht die Audiokonditionierung durch die Einführung eines Cross-Attention-Mechanismus, der die komplexe Beziehung zwischen Audiosignalen und Gesichtsausdrücken effektiv erfasst und eine bemerkenswerte Lippensynchronisation erreicht.

Beachten Sie, dass:Hallo3 die folgenden einfachen Anforderungen an die Eingabedaten für die Inferenz hat:

  • Referenzbild: Das Referenzbild muss ein Seitenverhältnis von 1:1 oder 3:2 haben.
  • Treiber-Audio: Das Treiber-Audio muss im WAV-Format vorliegen.
  • Audiosprache: Das Audio muss in Englisch sein, da der Trainingsdatensatz des Modells nur diese Sprache enthält.
  • Audioklarheit: Stellen Sie sicher, dass der Gesang klar und deutlich zu hören ist; Hintergrundmusik ist akzeptabel.

Hallo2: Audio-gesteuerte Rohwachstumsdauer und hochauflösende Porträtanimation Video-1


 

Funktionsliste

  • Audiogesteuerte AnimationserzeugungGenerieren Sie die entsprechende Porträtanimation, indem Sie eine Audiodatei eingeben.
  • Unterstützung für hohe AuflösungUnterstützung für die Erstellung von Videos mit 4K-Auflösung, um eine klare Bildqualität zu gewährleisten.
  • Erzeugung langer VideosKann Videoinhalte mit einer Länge von bis zu 1 Stunde erstellen.
  • Erweiterung des TextalarmsSteuerung der generierten Porträtausdrücke und Aktionen durch semantische Textbeschriftungen.
  • offene QuelleVollständiger Quellcode und vortrainierte Modelle werden bereitgestellt, um die Sekundärentwicklung zu erleichtern.
  • Unterstützung mehrerer PlattformenUnterstützt die Ausführung auf mehreren Plattformen wie Windows, Linux, etc.

 

Hilfe verwenden

Ablauf der Installation

  1. Systemanforderungen::
    • Betriebssystem: Ubuntu 20.04/22.04
    • GPU: Grafikkarte mit Unterstützung für CUDA 11.8 (z. B. A100)
  2. Erstellen einer virtuellen Umgebung::
    conda erstellen -n hallo python=3.10
    conda hallo aktivieren
    
  3. Installation von Abhängigkeiten::
    pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
    pip install -r anforderungen.txt
    sudo apt-get install ffmpeg
    
  4. Download des vortrainierten Modells::
    git lfs install
    git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
    

Verwendung Prozess

  1. Vorbereiten der Dateneingabe::
    • Laden Sie das benötigte trainierte Modell herunter und bereiten Sie es vor.
    • Bereiten Sie das Quellbild und die Treiber-Audiodateien vor.
  2. Ausführen von Inferenzskripten::
    python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
    
  3. Generierte Ergebnisse anzeigen::
    • Die erzeugte Videodatei wird im angegebenen Ausgabeverzeichnis gespeichert und kann mit einem beliebigen Videoplayer angesehen werden.

Detaillierte Schritte

  1. Code herunterladen::
    git clone https://github.com/fudan-generative-vision/hallo2
    cd hallo2
    
  2. Erstellen und Aktivieren einer virtuellen Umgebung::
    conda erstellen -n hallo python=3.10
    conda hallo aktivieren
    
  3. Installieren Sie die erforderlichen Python-Pakete::
    pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
    pip install -r anforderungen.txt
    
  4. ffmpeg installieren::
    sudo apt-get install ffmpeg
    
  5. Download des vortrainierten Modells::
    git lfs install
    git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
    
  6. Ausführen von Inferenzskripten::
    python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
    
  7. Generierte Ergebnisse anzeigen::
    • Die erzeugte Videodatei wird im angegebenen Ausgabeverzeichnis gespeichert und kann mit einem beliebigen Videoplayer angesehen werden.

 

Hallo2: Windows Ein-Klick-Installationsprogramm

Chef-KI-AustauschkreisDieser Inhalt wurde vom Autor versteckt. Bitte geben Sie den Verifizierungscode ein, um den Inhalt zu sehen.
Captcha:
Bitte beachten Sie diese Website WeChat öffentliche Nummer, Antwort "CAPTCHA, eine Art Challenge-Response-Test (Computer)", erhalten Sie den Verifizierungscode. Suchen Sie in WeChat nach "Chef-KI-Austauschkreis"oder"Looks-AI" oder WeChat, indem Sie die rechte Seite des QR-Codes scannen, können Sie die öffentliche WeChat-Nummer dieser Website aufrufen.

Inhalt3
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Hallo2: Audio-gesteuerte Erzeugung von lippensynchronen/ausdrucks-synchronen Portraitvideos (Ein-Klick-Installation für Windows)

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)