AI Personal Learning
und praktische Anleitung

LiveTalking: quelloffenes, interaktives, digitales Echtzeit-Live-System, das einen synchronen Audio- und Videodialog ermöglicht

Allgemeine Einführung

LiveTalking ist ein quelloffenes, interaktives digitales Echtzeit-Menschensystem, das sich dem Aufbau einer hochwertigen digitalen menschlichen Live-Lösung widmet. Das Projekt verwendet das Apache 2.0 Open-Source-Protokoll und integriert eine Reihe von Spitzentechnologien, einschließlich ER-NeRF-Rendering, Echtzeit-Audio- und Video-Stream-Verarbeitung, Lippensynchronisation usw. Das System unterstützt die digitale Darstellung und Interaktion von Menschen in Echtzeit und kann für Live-Übertragungen, Online-Bildung, Kundendienst und viele andere Szenarien verwendet werden. Das Projekt hat mehr als 4300 Sterne und 600 Zweige auf GitHub, was einen starken Einfluss der Community zeigt.LiveTalking legt besonderen Wert auf Echtzeit-Performance und interaktive Erfahrung und bietet den Nutzern ein komplettes Framework für die Entwicklung digitaler Menschen durch die Integration von AIGC-Technologie. Das Projekt wird kontinuierlich aktualisiert und gewartet und wird durch eine umfassende Dokumentation unterstützt, was es zu einer idealen Wahl für die Erstellung von Anwendungen für digitale Menschen macht.

LiveTalking: quelloffenes, interaktives, digitales Echtzeit-Live-System, das einen synchronen Audio- und Videodialog ermöglicht-1


 

Funktionsliste

  • Es werden mehrere digitale Menschmodelle unterstützt:ernerf, undmusetalk, undwav2lip, undUltraleicht-digital-menschlich
  • Gleichzeitiger Audio- und Videodialog
  • Unterstützung für Sound Cloning
  • Pro-Digital-Leute melden sich zu Wort und werden unterbrochen
  • Unterstützt Ganzkörper-Videosplicing
  • Unterstützt RTMP- und WebRTC-Push-Streams
  • Unterstützung für die Videoplanung: Wiedergabe benutzerdefinierter Videos, wenn nicht gesprochen wird
  • Unterstützt mehrfache Gleichzeitigkeit

 

Hilfe verwenden

1. das Installationsverfahren

  1. Anforderungen an die Umwelt Ubuntu 20.04, Python 3.10, Pytorch 1.12, CUDA 11.3
  2. Installation von Abhängigkeiten ::
conda create -n nerfstream python=3.10
conda nerfstream aktivieren
conda install pytorch==1.12.1 torchvision==0.13.1 cudatoolkit=11.3 -c pytorch
pip install -r anforderungen.txt

Wenn Sie nicht trainieren. ernerf Modell müssen die folgenden Bibliotheken nicht installiert werden:

pip install "git+https://github.com/facebookresearch/pytorch3d.git"
pip install tensorflow-gpu==2.8.0
pip install --upgrade "protobuf<=3.20.1"

2. schneller Start

  1. Laufende SRS ::
export CANDIDATE=''
docker run --rm --env CANDIDATE=$CANDIDATE -p 1935:1935 -p 8080:8080 -p 1985:1985 -p 8000:8000/udp registry.cn-hangzhou.aliyuncs.com/ossrs/ srs:5 objs/srs -c conf/rtc.conf

Anmerkungen: Der Server muss die Ports tcp:8000,8010,1985; udp:8000 öffnen.

  1. Die Einführung des digitalen Menschen ::
python app.py

Wenn Sie keinen Zugriff auf Huggingface haben, führen Sie es vor der Ausführung aus:

export HF_ENDPOINT=https://hf-mirror.com

Mit Ihrem Browser öffnen http://serverip:8010/rtcpushapi.htmlWenn Sie einen Text in das Textfeld eingeben, senden Sie ihn ab, und die digitale Person wird den Text senden.

Weitere Gebrauchsanweisungen

  • Docker läuft Die vorherige Installation ist nicht erforderlich, führen Sie es einfach aus:
docker run --gpus all -it --network=host --rm registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:vjo1Y6NJ3N

Der Code befindet sich in der /wurzel/metahuman-streamvor Git-Pull Ziehen Sie den neuesten Code und führen Sie den Befehl wie in Schritt 2 und 3 aus.

3. die Anweisungen zur Konfiguration

  1. System-Konfiguration
  • Bearbeiten Sie die Datei config.yaml, um grundlegende Parameter festzulegen
  • Konfigurieren von Kameras und Audiogeräten
  • Einstellung der AI-Modellparameter und -pfade
  • Konfigurieren der Live-Push-Streaming-Parameter
  1. Vorbereitung eines digitalen menschlichen Modells
  • Unterstützung für den Import von benutzerdefinierten 3D-Modellen
  • Vorgefertigte Beispielmodelle können verwendet werden
  • Unterstützt MetaHuman-Modell-Import

Hauptfunktionen

  • Audio- und videosynchroner Dialog in Echtzeit::
    1. Digitizer-Modell auswählen: Wählen Sie auf der Konfigurationsseite das entsprechende Digitizer-Modell (z.B. ernerf, musetalk, etc.).
    2. Auswahl der Audio-/Videoübertragungsmethode: Wählen Sie die geeignete Audio-/Videoübertragungsmethode (z.B. WebRTC, RTMP, etc.) entsprechend den Anforderungen.
    3. Dialog starten: Starten Sie die Audio-/Videoübertragung, um einen synchronen Audio-/Videodialog in Echtzeit zu erreichen.
  • Digitales Modell des Menschen schalten::
    1. Aufrufen der Setup-Seite: Klicken Sie auf der Seite Projektlauf auf die Schaltfläche Setup, um die Setup-Seite aufzurufen.
    2. Neues Modell auswählen: Wählen Sie auf der Seite Einstellungen ein neues Digimon-Modell aus und speichern Sie die Einstellungen.
    3. Projekt neu starten: startet das Projekt neu, um die neue Modellkonfiguration anzuwenden.
  • Einstellung der Audio- und Videoparameter::
    1. Aufrufen der Parametereinstellungsseite: Klicken Sie auf der Seite für die Projektausführung auf die Schaltfläche für die Parametereinstellung, um die Parametereinstellungsseite aufzurufen.
    2. Anpassungsparameter: Passen Sie die Audio- und Videoparameter (wie Auflösung, Bildrate usw.) nach Bedarf an.
    3. Speichern und anwenden: Speichert die Einstellungen und wendet die neue Parameterkonfiguration an.
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " LiveTalking: quelloffenes, interaktives, digitales Echtzeit-Live-System, das einen synchronen Audio- und Videodialog ermöglicht

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)