Allgemeine Einführung
Sonic ist eine innovative Plattform, die sich auf die globale Audiowahrnehmung konzentriert und darauf ausgelegt ist, lebendige Porträtanimationen zu erzeugen, die durch Audio gesteuert werden. Die von einem Forscherteam von Tencent und der Universität Zhejiang entwickelte Plattform nutzt Audioinformationen zur Steuerung von Gesichtsausdrücken und Kopfbewegungen, um natürliche und flüssige Animationsvideos zu erzeugen.Zu den Kerntechnologien von Sonic gehören kontextbezogenes Audio-Lernen, bewegungsentkoppelte Steuerungen und zeitbewusste Module zur Positionsverschiebung. Diese Technologien ermöglichen es Sonic, stabile und realistische Langform-Videos mit unterschiedlichen Bildstilen und verschiedenen Arten von Audio-Inputs zu erzeugen.
Der Code und die Gewichte für dieses Projekt werden veröffentlicht, sobald die interne Open-Source-Prüfung abgeschlossen ist.
Funktionsliste
- Kontexterweitertes Audio-LernenDie Extraktion von Audiowissen aus langen Zeitsegmenten liefert a priori Informationen über Gesichtsausdrücke und Lippenbewegungen.
- Regler zur BewegungsentkopplungUnabhängige Steuerung von Kopf- und Mimikbewegungen für eine natürlichere Animation.
- Zeitabhängige PositionsverschiebungsfusionZusammenführung von globalen Audioinformationen zur Erzeugung langer und stabiler Videos.
- Vielseitige VideoerstellungUnterstützung für verschiedene Bildstile und mehrere Auflösungen bei der Videoerstellung.
- Vergleich mit Open- und Closed-Source-MethodenZeigt die Stärken von Sonic im Ausdruck und in der natürlichen Kopfbewegung.
Hilfe verwenden
Ablauf der Installation
Die Sonic-Plattform wird derzeit einer internen Open-Source-Prüfung unterzogen. Sobald die Prüfung abgeschlossen ist, werden der Code und die Gewichte auf GitHub hochgeladen:
- Besuchen Sie Sonic's GitHub-Seite.
- Klon-Lagerhaus:
git clone https://github.com/jixiaozhong/Sonic.git
- Installieren Sie die Abhängigkeit:
pip install -r anforderungen.txt
- Laden Sie die vortrainierten Modellgewichte herunter und legen Sie sie im angegebenen Verzeichnis ab.
Verwendung Prozess
- Vorbereiten der DateneingabeSammelt Videobilder und Audiodateien, die für die Animation erstellt werden müssen.
- Führen Sie das generierte Skript aus: Führen Sie den Generierungsprozess mit Hilfe der mitgelieferten Skripte durch, zum Beispiel:
python generate.py --image input.jpg --audio input.wav
- Anpassungsparameter: Passen Sie die Parameter im Generierungsskript nach Bedarf an, um die besten Ergebnisse zu erzielen.
- Ansicht AusgabeDas erzeugte Video wird im angegebenen Ausgabeverzeichnis gespeichert.
Detaillierte Funktionsweise
- Kontexterweitertes Audio-LernenDurch das Lernen aus langen Audiosegmenten kann Sonic subtile Veränderungen im Ton erfassen und so eine natürlichere Mimik und Lippenbewegung erzeugen.
- Regler zur BewegungsentkopplungDer Controller steuert die Kopfbewegung und die Mimikbewegung getrennt, wodurch die erzeugte Animation realistischer wird. Der Benutzer kann den Animationseffekt optimieren, indem er die Parameter des Controllers anpasst.
- Zeitabhängige PositionsverschiebungsfusionDieses Modul sorgt dafür, dass das erzeugte Video über einen langen Zeitraum hinweg stabil bleibt, indem es globale Audioinformationen fusioniert. Der Benutzer kann die Glätte und Stabilität des Videos steuern, indem er die Zeitfensterparameter anpasst.
- Vielseitige VideoerstellungSonic unterstützt verschiedene Bildstile (z. B. Zeichentrick, realistisch) und mehrere Auflösungen für die Videoerzeugung. Die Benutzer können die geeigneten Bild- und Audioeingänge nach ihren Bedürfnissen auswählen und Videoeffekte erzeugen, die ihren Erwartungen entsprechen.