DH live: KI-Digitalmenschen mit reibungsloser Echtzeit-Interaktion auf Grafikkarten der Serie 30/40

Neueste AI-RessourcenGeschrieben vor 9 Monaten AI-Austauschkreis

12.6K 00

Allgemeine Einführung

DH_live ist ein Echtzeit-Live-Projekt für digitale Menschen, das auf beispiellosem Lernen basiert und darauf abzielt, den Benutzern ein reibungsloses und interaktives Live-Streaming-Erlebnis zu bieten. Das Projekt unterstützt NVIDIA-Grafikkarten der Serien 30 und 40 und ist in der Lage, in Echtzeit mit 25+ fps zu laufen. Die Benutzer können digitale Menschen in einfachen Schritten erstellen und verwenden und so audio-gesteuerte Videos und Echtzeit-Interaktionen erzeugen.

Funktionsliste

Echtzeitleistung: Unterstützt NVIDIA-Grafikkarten der Serien 30 und 40 für ein reibungsloses interaktives Erlebnis in Echtzeit.
Few-shot learning: Das System ist in der Lage, aus einer kleinen Anzahl von Beispielen zu lernen, um realistische Antworten zu erzeugen.
Video-Vorbereitung: Verwenden Sie das Skript data_preparation, um die Videodaten vorzubereiten.
Audiotreiber: Unterstützt die Steuerung digitaler Personen durch Audiodateien, um synchronisierte Videos zu erzeugen.
Echtzeit-Mikrofoneingang: unterstützt Echtzeitbetrieb über Mikrofon.

Hilfe verwenden

Erstellung von Umgebungen und Dekomprimierung von Modelldateien

Erstellen Sie eine virtuelle Umgebung und aktivieren Sie sie:
```
conda create -n dh_live python=3.12
conda activate dh_live
```

Installieren Sie die Abhängigkeit:

pip install torch --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt

Entpacken Sie die Modelldateien:

Linux.

cd checkpoint
cat render.pth.gz.001 render.pth.gz.002 > render.pth.gz
gzip -d -c render.pth.gz > render.pth

Windows: Extrahieren Sie die Checkpoint-Datei mit 7zip oder WinRAR.

Video-Vorbereitung

ausnutzen data_preparation.py Video zur Drehbuchvorbereitung:
```
python data_preparation.py YOUR_VIDEO_PATH
```
Die Ergebnisse werden in der Datei ./video_data Katalog.

Arbeiten mit Audiodateien

Vergewissern Sie sich, dass die Audiodatei im .wav-Format mit einer Abtastrate von 16 kHz und 16-Bit-Mono vorliegt.

Führen Sie das Demoskript aus:

python demo.py video_data/test video_data/audio0.wav 1.mp4

Echtzeitbetrieb

Verwenden Sie das Mikrofon für den Echtzeitbetrieb:
```
python demo_avatar.py
```

allgemeine Probleme

Entpacken der Modelldatei fehlgeschlagenBitte stellen Sie sicher, dass alle Subvolume-Dateien vollständig und korrekt entpackt sind.
Falsches AudiodateiformatBitte verwenden Sie eine konforme .wav-Datei.