Allgemeine Einführung
Hallo2 ist ein Open-Source-Projekt, das gemeinsam von der Fudan-Universität und Baidu entwickelt wurde, um hochauflösende Porträtanimationen durch audiogesteuerte Generierung zu erzeugen. Das Projekt nutzt fortschrittliche Generative Adversarial Networks (GAN) und Techniken zur zeitlichen Ausrichtung, um eine 4K-Auflösung und eine Videogeschwindigkeit von bis zu einer Stunde zu erreichen. Hallo2 unterstützt auch Textaufforderungen, um die Vielfalt und Kontrollierbarkeit der generierten Inhalte zu verbessern.
Hallo3 wurde veröffentlicht und ermöglicht die Audiokonditionierung durch die Einführung eines Cross-Attention-Mechanismus, der die komplexe Beziehung zwischen Audiosignalen und Gesichtsausdrücken effektiv erfasst und eine bemerkenswerte Lippensynchronisation erreicht.
Beachten Sie, dass:Hallo3 die folgenden einfachen Anforderungen an die Eingabedaten für die Inferenz hat:
Referenzbild: Das Referenzbild muss ein Seitenverhältnis von 1:1 oder 3:2 haben. Treiber-Audio: Das Treiber-Audio muss im WAV-Format vorliegen. Audiosprache: Das Audio muss in Englisch sein, da der Trainingsdatensatz des Modells nur diese Sprache enthält. Audioklarheit: Stellen Sie sicher, dass der Gesang klar und deutlich zu hören ist; Hintergrundmusik ist akzeptabel.
Funktionsliste
- Audiogesteuerte AnimationserzeugungGenerieren Sie die entsprechende Porträtanimation, indem Sie eine Audiodatei eingeben.
- Unterstützung für hohe AuflösungUnterstützung für die Erstellung von Videos mit 4K-Auflösung, um eine klare Bildqualität zu gewährleisten.
- Erzeugung langer VideosKann Videoinhalte mit einer Länge von bis zu 1 Stunde erstellen.
- Erweiterung des TextalarmsSteuerung der generierten Porträtausdrücke und Aktionen durch semantische Textbeschriftungen.
- offene QuelleVollständiger Quellcode und vortrainierte Modelle werden bereitgestellt, um die Sekundärentwicklung zu erleichtern.
- Unterstützung mehrerer PlattformenUnterstützt die Ausführung auf mehreren Plattformen wie Windows, Linux, etc.
Hilfe verwenden
Ablauf der Installation
- Systemanforderungen::
- Betriebssystem: Ubuntu 20.04/22.04
- GPU: Grafikkarte mit Unterstützung für CUDA 11.8 (z. B. A100)
- Erstellen einer virtuellen Umgebung::
conda erstellen -n hallo python=3.10 conda hallo aktivieren
- Installation von Abhängigkeiten::
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 pip install -r anforderungen.txt sudo apt-get install ffmpeg
- Download des vortrainierten Modells::
git lfs install git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
Verwendung Prozess
- Vorbereiten der Dateneingabe::
- Laden Sie das benötigte trainierte Modell herunter und bereiten Sie es vor.
- Bereiten Sie das Quellbild und die Treiber-Audiodateien vor.
- Ausführen von Inferenzskripten::
python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
- Generierte Ergebnisse anzeigen::
- Die erzeugte Videodatei wird im angegebenen Ausgabeverzeichnis gespeichert und kann mit einem beliebigen Videoplayer angesehen werden.
Detaillierte Schritte
- Code herunterladen::
git clone https://github.com/fudan-generative-vision/hallo2 cd hallo2
- Erstellen und Aktivieren einer virtuellen Umgebung::
conda erstellen -n hallo python=3.10 conda hallo aktivieren
- Installieren Sie die erforderlichen Python-Pakete::
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 pip install -r anforderungen.txt
- ffmpeg installieren::
sudo apt-get install ffmpeg
- Download des vortrainierten Modells::
git lfs install git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
- Ausführen von Inferenzskripten::
python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
- Generierte Ergebnisse anzeigen::
- Die erzeugte Videodatei wird im angegebenen Ausgabeverzeichnis gespeichert und kann mit einem beliebigen Videoplayer angesehen werden.