Allgemeine Einführung
Hallo2 ist ein Open-Source-Projekt, das gemeinsam von der Fudan-Universität und Baidu entwickelt wurde, um hochauflösende Porträtanimationen durch audiogesteuerte Generierung zu erzeugen. Das Projekt nutzt fortschrittliche Generative Adversarial Networks (GAN) und Techniken zur zeitlichen Ausrichtung, um eine 4K-Auflösung und eine Videogeschwindigkeit von bis zu einer Stunde zu erreichen. Hallo2 unterstützt auch Textaufforderungen, um die Vielfalt und Kontrollierbarkeit der generierten Inhalte zu verbessern.
Funktionsliste
- Audiogesteuerte AnimationserzeugungGenerieren Sie die entsprechende Porträtanimation, indem Sie eine Audiodatei eingeben.
- Unterstützung für hohe AuflösungUnterstützung für die Erstellung von Videos mit 4K-Auflösung, um eine klare Bildqualität zu gewährleisten.
- Erzeugung langer VideosKann Videoinhalte mit einer Länge von bis zu 1 Stunde erstellen.
- Erweiterung des TextalarmsSteuerung der generierten Porträtausdrücke und Aktionen durch semantische Textbeschriftungen.
- offene QuelleVollständiger Quellcode und vortrainierte Modelle werden bereitgestellt, um die Sekundärentwicklung zu erleichtern.
- Unterstützung mehrerer PlattformenUnterstützt die Ausführung auf mehreren Plattformen wie Windows, Linux, etc.
Hilfe verwenden
Ablauf der Installation
- Systemanforderungen::
- Betriebssystem: Ubuntu 20.04/22.04
- GPU: Grafikkarte mit Unterstützung für CUDA 11.8 (z. B. A100)
- Erstellen einer virtuellen Umgebung::
conda erstellen -n hallo python=3.10 conda hallo aktivieren
- Installation von Abhängigkeiten::
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 pip install -r anforderungen.txt sudo apt-get install ffmpeg
- Download des vortrainierten Modells::
git lfs install git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
Verwendung Prozess
- Vorbereiten der Dateneingabe::
- Laden Sie das benötigte trainierte Modell herunter und bereiten Sie es vor.
- Bereiten Sie das Quellbild und die Treiber-Audiodateien vor.
- Ausführen von Inferenzskripten::
python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
- Generierte Ergebnisse anzeigen::
- Die erzeugte Videodatei wird im angegebenen Ausgabeverzeichnis gespeichert und kann mit einem beliebigen Videoplayer angesehen werden.
Detaillierte Schritte
- Code herunterladen::
git clone https://github.com/fudan-generative-vision/hallo2 cd hallo2
- Erstellen und Aktivieren einer virtuellen Umgebung::
conda erstellen -n hallo python=3.10 conda hallo aktivieren
- Installieren Sie die erforderlichen Python-Pakete::
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 pip install -r anforderungen.txt
- ffmpeg installieren::
sudo apt-get install ffmpeg
- Download des vortrainierten Modells::
git lfs install git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
- Ausführen von Inferenzskripten::
python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
- Generierte Ergebnisse anzeigen::
- Die erzeugte Videodatei wird im angegebenen Ausgabeverzeichnis gespeichert und kann mit einem beliebigen Videoplayer angesehen werden.