AI Personal Learning
und praktische Anleitung

Sonic: Eine neue Open-Source-Lösung für digitale Menschen, audio-gesteuerte Erzeugung von animierten Videos mit Gesichtsausdrücken für digitale Pop-ups

Allgemeine Einführung

Sonic ist eine innovative Plattform, die sich auf die globale Audiowahrnehmung konzentriert und darauf ausgelegt ist, lebendige Porträtanimationen zu erzeugen, die durch Audio gesteuert werden. Die von einem Forscherteam von Tencent und der Universität Zhejiang entwickelte Plattform nutzt Audioinformationen zur Steuerung von Gesichtsausdrücken und Kopfbewegungen, um natürliche und flüssige Animationsvideos zu erzeugen.Zu den Kerntechnologien von Sonic gehören kontextbezogenes Audio-Lernen, bewegungsentkoppelte Steuerungen und zeitbewusste Module zur Positionsverschiebung. Diese Technologien ermöglichen es Sonic, stabile und realistische Langform-Videos mit unterschiedlichen Bildstilen und verschiedenen Arten von Audio-Inputs zu erzeugen.

Der Code und die Gewichte für dieses Projekt werden veröffentlicht, sobald die interne Open-Source-Prüfung abgeschlossen ist.

Sonic: eine neue Open-Source-Lösung für den digitalen Menschen, die audiogestützte Erzeugung von animierten digitalen Mundvideos mit Gesichtsausdrücken - 1

 


 

Funktionsliste

  • Kontexterweitertes Audio-LernenDie Extraktion von Audiowissen aus langen Zeitsegmenten liefert a priori Informationen über Gesichtsausdrücke und Lippenbewegungen.
  • Regler zur BewegungsentkopplungUnabhängige Steuerung von Kopf- und Mimikbewegungen für eine natürlichere Animation.
  • Zeitabhängige PositionsverschiebungsfusionZusammenführung von globalen Audioinformationen zur Erzeugung langer und stabiler Videos.
  • Vielseitige VideoerstellungUnterstützung für verschiedene Bildstile und mehrere Auflösungen bei der Videoerstellung.
  • Vergleich mit Open- und Closed-Source-MethodenZeigt die Stärken von Sonic im Ausdruck und in der natürlichen Kopfbewegung.

 

Hilfe verwenden

Ablauf der Installation

Die Sonic-Plattform wird derzeit einer internen Open-Source-Prüfung unterzogen. Sobald die Prüfung abgeschlossen ist, werden der Code und die Gewichte auf GitHub hochgeladen:

  1. Besuchen Sie Sonic's GitHub-Seite.
  2. Klon-Lagerhaus:git clone https://github.com/jixiaozhong/Sonic.git
  3. Installieren Sie die Abhängigkeit:pip install -r anforderungen.txt
  4. Laden Sie die vortrainierten Modellgewichte herunter und legen Sie sie im angegebenen Verzeichnis ab.

Verwendung Prozess

  1. Vorbereiten der DateneingabeSammelt Videobilder und Audiodateien, die für die Animation erstellt werden müssen.
  2. Führen Sie das generierte Skript aus: Führen Sie den Generierungsprozess mit Hilfe der mitgelieferten Skripte durch, zum Beispiel:python generate.py --image input.jpg --audio input.wav
  3. Anpassungsparameter: Passen Sie die Parameter im Generierungsskript nach Bedarf an, um die besten Ergebnisse zu erzielen.
  4. Ansicht AusgabeDas erzeugte Video wird im angegebenen Ausgabeverzeichnis gespeichert.

Detaillierte Funktionsweise

  • Kontexterweitertes Audio-LernenDurch das Lernen aus langen Audiosegmenten kann Sonic subtile Veränderungen im Ton erfassen und so eine natürlichere Mimik und Lippenbewegung erzeugen.
  • Regler zur BewegungsentkopplungDer Controller steuert die Kopfbewegung und die Mimikbewegung getrennt, wodurch die erzeugte Animation realistischer wird. Der Benutzer kann den Animationseffekt optimieren, indem er die Parameter des Controllers anpasst.
  • Zeitabhängige PositionsverschiebungsfusionDieses Modul sorgt dafür, dass das erzeugte Video über einen langen Zeitraum hinweg stabil bleibt, indem es globale Audioinformationen fusioniert. Der Benutzer kann die Glätte und Stabilität des Videos steuern, indem er die Zeitfensterparameter anpasst.
  • Vielseitige VideoerstellungSonic unterstützt verschiedene Bildstile (z. B. Zeichentrick, realistisch) und mehrere Auflösungen für die Videoerzeugung. Die Benutzer können die geeigneten Bild- und Audioeingänge nach ihren Bedürfnissen auswählen und Videoeffekte erzeugen, die ihren Erwartungen entsprechen.
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Sonic: Eine neue Open-Source-Lösung für digitale Menschen, audio-gesteuerte Erzeugung von animierten Videos mit Gesichtsausdrücken für digitale Pop-ups

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)