AI Personal Learning
und praktische Anleitung

EchoMimic: Audiogesteuerte realistische Porträtanimation

Allgemeine Einführung

EchoMimic ist ein Open-Source-Projekt zur Erzeugung realistischer Porträtanimationen, die durch Audio gesteuert werden. Das von der Abteilung Terminal Technologies der Ant Group entwickelte Projekt nutzt editierbare Markerpunktbedingungen, um dynamische Porträtvideos zu generieren, die Audio- und Gesichtsmarkerpunkte kombinieren. EchoMimic wurde umfassend mit mehreren öffentlichen und proprietären Datensätzen verglichen und hat seine überlegene Leistung sowohl in quantitativen als auch in qualitativen Bewertungen bewiesen.

EchoMimic: Audio-gesteuerte realistische Porträtanimation-1

Demo-Adresse: https://www.modelscope.cn/studios/BadToBest/BadToBest


 

Funktionsliste

  • Audio-Treiber-AnimationGenerieren Sie realistische Porträtanimationen mit Audioeingabe.
  • Markierungspunktgesteuerte AnimationGenerieren Sie stabile Porträtanimationen mit Hilfe von Gesichtsmarkierungspunkten.
  • Audio + Marker-TreiberKombinieren Sie Audio und ausgewählte Gesichtsmarker, um natürlichere Porträtanimationen zu erstellen.
  • Mehrsprachige UnterstützungUnterstützt die Audioeingabe in Chinesisch, Englisch und anderen Sprachen.
  • Effizientes ReasoningOptimierte Modelle und Pipelines verbessern die Inferenzgeschwindigkeit erheblich.

 

Hilfe verwenden

Ablauf der Installation

  1. Code herunterladen::
    git clone https://github.com/BadToBest/EchoMimic
    cd EchoMimic
    
  2. Einrichten der Python-Umgebung::
    • Es wird empfohlen, conda zur Erstellung einer virtuellen Umgebung zu verwenden:
      conda create -n echomimic python=3.8
      conda activate echomimic
      
    • Installieren Sie die Abhängigkeitspakete:
      pip install -r anforderungen.txt
      
  3. ffmpeg-static herunterladen und entpacken::
    • Laden Sie ffmpeg-static herunter und entpacken Sie es, dann setzen Sie die Umgebungsvariable:
      export FFMPEG_PATH=/pfad/zu/ffmpeg-4.4-amd64-static
      
  4. Download Gewichte vor dem Training::
    • Laden Sie die entsprechenden vortrainierten Modellgewichte gemäß der Projektbeschreibung herunter.

Verwendung Prozess

  1. Ausführen der Webschnittstelle::
    • Starten Sie das Webinterface:
      python webgui.py
      
    • Besuchen Sie den lokalen Server, um die Benutzeroberfläche anzuzeigen und Audiodateien für die Erstellung von Animationen hochzuladen.
  2. Befehlszeilenargumentation::
    • Verwenden Sie die folgenden Befehle für die Erstellung von audio-gesteuerten Porträtanimationen:
      python infer_audio2vid.py --audio_pfad /pfad/zu/audio --output_pfad /pfad/zu/output
      
    • Begründungen in Verbindung mit Wegweisern:
      python infer_audio2vid_pose.py --audio_pfad /path/to/audio --landmark_pfad /path/to/landmark --output_pfad /path/to/output
      
  3. Modell-Optimierung::
    • Die Verwendung des optimierten Modells und der Pipeline kann die Inferenzgeschwindigkeit erheblich verbessern, z. B. von 7 min/240 fps auf 50 sec/240 fps auf V100 GPUs.

caveat

  • Stellen Sie sicher, dass die verwendete Python-Version und CUDA-Version mit den Projektanforderungen übereinstimmen.
  • Wenn Sie bei der Verwendung auf Probleme stoßen, können Sie in der README-Datei des Projekts nachlesen oder auf GitHub eine Anfrage stellen.

 

Windows Ein-Klick-Installationsprogramm

Chef-KI-AustauschkreisDieser Inhalt wurde vom Autor versteckt. Bitte geben Sie den Verifizierungscode ein, um den Inhalt zu sehen.
Captcha:
Bitte beachten Sie diese Website WeChat öffentliche Nummer, Antwort "CAPTCHA, eine Art Challenge-Response-Test (Computer)", erhalten Sie den Verifizierungscode. Suchen Sie in WeChat nach "Chef-KI-Austauschkreis"oder"Looks-AI" oder WeChat, indem Sie die rechte Seite des QR-Codes scannen, können Sie die öffentliche WeChat-Nummer dieser Website aufrufen.

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " EchoMimic: Audiogesteuerte realistische Porträtanimation

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)