AI Personal Learning
und praktische Anleitung
Ressource Empfehlung 1

Sonic: Audio-gesteuerte Porträtbilder erzeugen digitale Demo-Videos mit lebendiger Mimik

Allgemeine Einführung

Sonic ist eine innovative Plattform, die sich auf die globale Audiowahrnehmung konzentriert und darauf ausgelegt ist, lebendige Porträtanimationen zu erzeugen, die durch Audio gesteuert werden. Die von einem Forscherteam von Tencent und der Universität Zhejiang entwickelte Plattform nutzt Audioinformationen zur Steuerung von Gesichtsausdrücken und Kopfbewegungen, um natürliche und flüssige Animationsvideos zu erzeugen.Zu den Kerntechnologien von Sonic gehören kontextbezogenes Audio-Lernen, bewegungsentkoppelte Steuerungen und zeitbewusste Module zur Positionsverschiebung. Diese Technologien ermöglichen es Sonic, stabile und realistische Langform-Videos mit unterschiedlichen Bildstilen und verschiedenen Arten von Audio-Inputs zu erzeugen.

Der Code und die Gewichte für dieses Projekt werden freigegeben (bereits freigegeben), nachdem es die interne Open-Source-Prüfung bestanden hat.Installationsanweisungen für Windows-Benutzer.

Sonic: eine neue Open-Source-Lösung für den digitalen Menschen, die audiogestützte Erzeugung von animierten digitalen Mundvideos mit Gesichtsausdrücken - 1

Demo: https://huggingface.co/spaces/xiaozhongji/Sonic

 


Sonic: eine neue Open-Source-Lösung für den digitalen Menschen, die audiogestützte Erzeugung von animierten digitalen Mundvideos mit Gesichtsausdrücken - 1

 

 

Funktionsliste

  • Kontexterweitertes Audio-LernenDie Extraktion von Audiowissen aus langen Zeitsegmenten liefert a priori Informationen über Gesichtsausdrücke und Lippenbewegungen.
  • Regler zur BewegungsentkopplungUnabhängige Steuerung von Kopf- und Mimikbewegungen für eine natürlichere Animation.
  • Zeitabhängige PositionsverschiebungsfusionZusammenführung von globalen Audioinformationen zur Erzeugung langer und stabiler Videos.
  • Vielseitige VideoerstellungUnterstützung für verschiedene Bildstile und mehrere Auflösungen bei der Videoerstellung.
  • Vergleich mit Open- und Closed-Source-MethodenZeigt die Stärken von Sonic im Ausdruck und in der natürlichen Kopfbewegung.

 

Hilfe verwenden

Ablauf der Installation

Die Sonic-Plattform wird derzeit einer internen Open-Source-Prüfung unterzogen. Sobald die Prüfung abgeschlossen ist, werden der Code und die Gewichte auf GitHub hochgeladen:

  1. Besuchen Sie die GitHub-Seite von Sonic.
  2. Klon-Lagerhaus:git clone https://github.com/jixiaozhong/Sonic.git
  3. Installieren Sie die Abhängigkeit:pip install -r anforderungen.txt
  4. Laden Sie die vortrainierten Modellgewichte herunter und legen Sie sie im angegebenen Verzeichnis ab.

Verwendung Prozess

  1. Vorbereiten der DateneingabeSammelt Videobilder und Audiodateien, die für die Animation erstellt werden müssen.
  2. Führen Sie das generierte Skript aus: Führen Sie den Generierungsprozess mit Hilfe der mitgelieferten Skripte durch, zum Beispiel:python generate.py --image input.jpg --audio input.wav
  3. Anpassungsparameter: Passen Sie die Parameter im Generierungsskript nach Bedarf an, um die besten Ergebnisse zu erzielen.
  4. Ansicht AusgabeDas erzeugte Video wird im angegebenen Ausgabeverzeichnis gespeichert.

Detaillierte Funktionsweise

  • Kontexterweitertes Audio-LernenDurch das Lernen aus langen Audiosegmenten kann Sonic subtile Veränderungen im Ton erfassen und so eine natürlichere Mimik und Lippenbewegung erzeugen.
  • Regler zur BewegungsentkopplungDer Controller steuert die Kopfbewegung und die Mimikbewegung getrennt, wodurch die erzeugte Animation realistischer wird. Der Benutzer kann den Animationseffekt optimieren, indem er die Parameter des Controllers anpasst.
  • Zeitabhängige PositionsverschiebungsfusionDieses Modul sorgt dafür, dass das erzeugte Video über einen langen Zeitraum hinweg stabil bleibt, indem es globale Audioinformationen fusioniert. Der Benutzer kann die Glätte und Stabilität des Videos steuern, indem er die Zeitfensterparameter anpasst.
  • Vielseitige VideoerstellungSonic unterstützt verschiedene Bildstile (z. B. Zeichentrick, realistisch) und mehrere Auflösungen für die Videoerzeugung. Die Benutzer können die geeigneten Bild- und Audioeingänge nach ihren Bedürfnissen auswählen und Videoeffekte erzeugen, die ihren Erwartungen entsprechen.
Tools herunterladen
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Sonic: Audio-gesteuerte Porträtbilder erzeugen digitale Demo-Videos mit lebendiger Mimik

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)