AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

HeyGem: Silicon Intelligence's Open Source Heygen Digital Human Pincushion Produkt

Allgemeine Einführung

HeyGem ist ein vollständig offline arbeitendes Video-Compositing-Tool für Windows, das vom GuijiAI-Team entwickelt und auf GitHub als Open Source veröffentlicht wurde. Es nutzt fortschrittliche KI-Algorithmen, um das Aussehen und die Stimme eines Nutzers genau zu klonen und realistische Avatare zu erstellen. Es unterstützt die Erstellung von personalisierten Videos, die durch Text oder Sprache gesteuert werden. HeyGem unterstützt mehrsprachige Skripte (einschließlich Englisch, Japanisch, Koreanisch, Chinesisch und acht weitere Sprachen), eine einfache und intuitive Benutzeroberfläche, die auch für Benutzer ohne technische Vorkenntnisse geeignet ist, und eine offene API, die es Entwicklern ermöglicht, die Funktionalität zu erweitern. Vor einigen Monaten hat Silicon Intelligence eine quelloffene mobile Version der digitalen Person DUIX: Intelligente digitale Menschen für Echtzeit-Interaktion, die eine plattformübergreifende Bereitstellung mit einem Mausklick unterstützen.

HeyGem: Das Open Source Heygen Digital Human Pincushion Project-1 von Silicon Intelligence

HeyGem offizielle Download-Adresse: https://heygem.ai/


 

Funktionsliste

  • Präzises Aussehen und Klonen der StimmeKI-Technologie erfasst Gesichtszüge und stimmliche Details, um Avatare und Stimmen mit hoher Wiedergabetreue zu erzeugen, wobei die Parameter angepasst werden können.
  • Textgesteuertes virtuelles BildSobald der Text eingegeben ist, generiert das Tool automatisch natürliche Sprache und steuert den Avatar durch Lippensynchronisation und Ausdrucksbewegungen.
  • Sprachgesteuerte VideoproduktionDynamische Videos erzeugen, indem Ton und Rhythmus des Avatars durch die Spracheingabe des Nutzers gesteuert werden.
  • Vollständiger Offline-BetriebEs ist keine Netzwerkverbindung erforderlich, und alle Daten werden aus Gründen des Datenschutzes und der Sicherheit lokal verarbeitet.
  • Mehrsprachige UnterstützungAcht Sprachen werden unterstützt: Englisch, Japanisch, Koreanisch, Chinesisch, Französisch, Deutsch, Arabisch und Spanisch.
  • Effizientes Video-CompositingIntelligente Optimierung der Audio- und Videosynchronisation sorgt für eine natürliche Übereinstimmung von Lippenform und Stimme.
  • Open-Source-API-SchnittstelleBietet APIs für Modelltraining und Video-Compositing mit anpassbaren Funktionen für Entwickler.

 

Hilfe verwenden

Ablauf der Installation

Der folgende Installationsvorgang hält sich strikt an die offiziellen Anweisungen, wobei die ursprünglichen Text- und Bildadressen beibehalten werden:

Voraussetzungen

  1. Muss Scheibe D habenHauptsächlich zur Speicherung von digitalen Bildern und Projektdaten
    • Freier Speicherplatzbedarf: mehr als 30 GB
  2. C-ScheibeService-Image-Dateien: Wird zum Speichern von Service-Image-Dateien verwendet.
    • Freier Speicherplatzbedarf: mehr als 100 GB
    • Wenn Sie weniger als 100 GB freien Speicherplatz haben, können Sie nach der Installation von Docker einen Ordner auf einem Datenträger mit mehr als 100 GB freiem Speicherplatz an dem unten angegebenen Ort auswählen:
      HeyGem: Heygen open source pinto project for digital people-1
  3. Systemanforderungen::
    • Unterstützt derzeit Windows 10 19042.1526 oder höher
  4. Empfohlene Konfigurationen::
    • CPU: 13. Generation Intel Core i5-13400F
    • Speicher: 32GB
    • Grafikkarte: RTX-4070
  5. Vergewissern Sie sich, dass Sie eine NVIDIA-Grafikkarte haben und dass die Treiber korrekt installiert sind.
    • NVIDIA-Treiber-Download-Link: https://www.nvidia.cn/drivers/lookup/
      HeyGem: Heygen open source pinto project for digital people -2

Installation von Windows Docker

  1. Befehle verwenden wsl --list --verbose Prüfen Sie, ob WSL installiert ist. Die folgende Abbildung zeigt, dass sie installiert ist und nicht neu installiert werden muss:
    HeyGem: Heygen open source pinto project for digital people-3

    • WSL-Installationsbefehle:wsl --install
    • Kann aufgrund von Netzwerkproblemen fehlschlagen, bitte versuchen Sie es mehrmals
    • Während des Installationsvorgangs müssen Sie einen neuen Benutzernamen und ein neues Kennwort einrichten und sich diese merken.
  2. ausnutzen wsl --update WSL aktualisieren:
    HeyGem: Heygen Open-Source-Pinto-Projekt für digitale Menschen-4
  3. Laden Sie Docker für Windows herunter und wählen Sie ein Installationsprogramm, das für Ihre CPU-Architektur geeignet ist.
  4. Dieser Bildschirm zeigt die erfolgreiche Installation an:
    HeyGem: Heygen open source pinto project for digital people -5
  5. Docker ausführen:
    HeyGem: Heygen open source pinto project für digitale Menschen -6
  6. Akzeptiert das Protokoll und überspringt die Anmeldung beim ersten Durchlauf:
    HeyGem: Heygen open source pinto project for digital people-7
    HeyGem: Heygen open source pinto project für digitale Menschen -8
    HeyGem: Heygen Open-Source-Pinto-Projekt für digitale Menschen-9

Installieren des Servers

Installieren Sie die folgenden Komponenten mit Docker und docker-compose:

  1. docker-compose.yml Die Datei befindet sich im Verzeichnis /entfalten Katalog.
  2. existieren /entfalten Verzeichnis zur Ausführung der docker-compose up -d.
  3. Warten Sie geduldig (ca. eine halbe Stunde, je nach Internetgeschwindigkeit), der Download wird ca. 70 GB Traffic verbrauchen, bitte stellen Sie sicher, dass Sie WiFi benutzen.
  4. Der Erfolg wird angezeigt, wenn drei Dienste in Docker zu sehen sind:
    HeyGem: Heygen open source pinto project for digital people-10

Kunde

  1. Skript erstellen npm run build:winNach der Ausführung wird es in der dist Katalogerstellung HeyGem-1.0.0-setup.exe.
  2. Doppelklick HeyGem-1.0.0-setup.exe Führen Sie die Installation durch.

Abhängigkeiten

  1. Nodejs 18
  2. Docker-Image:
    • docker pull guiji2025/fun-asr:1.0.1
    • docker pull guiji2025/fish-speech-ziming:1.0.39
    • docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

Hauptfunktionen

1. das Klonen des Aussehens und der Stimme

  • Material vorbereiten
    • Nehmen Sie eine klare Stimme auf (10-30 Sekunden im WAV-Format) und geben Sie sie in den D:\heygem_data\voice\data.
    • Machen Sie ein hochauflösendes Foto der Vorderseite und legen Sie es in die D:\heygem_data\face2face(Die Pfade finden Sie in der docker-compose.yml (Angepasst in).
  • Klon-Funktion ausführen
    • Starten Sie den Client, öffnen Sie die Oberfläche und wählen Sie "Model Training".
    • Aufrufen der API http://127.0.0.1:18180/v1/preprocess_and_tranEingabeparameter wie z.B.:
      {
      "format": ".wav",
      "reference_audio": "D:/heygem_data/voice/data/sample.wav",
      "lang": "zh"
      }
      
    • Holen Sie sich die zurückgegebenen Ergebnisse (z. B. Audiopfad und Text) und speichern Sie sie zur späteren Verwendung.

2. textgesteuerte virtuelle Bilder

  • Eingabetext
    • Wählen Sie in der Client-Oberfläche "Audio Synthesis" und rufen Sie die API auf. http://127.0.0.1:18180/v1/invokeEingabeparameter wie z.B.:
      {
      "Sprecher": "unique-uuid".
      "text": "Willkommen zum HeyGem.ai Erlebnis",
      "format": "wav",
      "topP": 0.7, "max_new_tokens".
      
      
      
      "temperatur": 0.7, "need_asr": false_asr": false_asr
      
      "streaming": false, "is_fixed_select": false, "is_fixed_select": false
      "is_fixed_seed": 0, "is_norm": 0, "is_fixed_seed": 0, "is_norm": 0
      
      "reference_audio": "Zurückgegebener Audiopfad",
      "reference_text": "Zurückgegebener Text"
      }
      
  • Video generieren
    • Verwendung der Synthese-Schnittstelle http://127.0.0.1:8383/easy/submitEingabeparameter wie z.B.:
      {
      "audio_url": "Pfad zum erzeugten Ton",
      "video_url": "D:/heygem_data/face2face/sample.mp4",
      "code": "unique-uuid",
      "chaofen": 0, "watermark_switch".
      "watermark_switch": 0,
      "pn": 1
      }
      
    • Erkundigen Sie sich nach den Fortschritten:http://127.0.0.1:8383/easy/query?code=unique-uuid.
  • Ergebnisse speichern
    • Wenn Sie fertig sind, wird die Videodatei lokal im angegebenen Pfad gespeichert.

3. sprachgesteuerte Videoproduktion

  • Stimme aufnehmen
    • Nehmen Sie Ihre Stimme im Client auf, oder laden Sie WAV-Dateien direkt in den D:\heygem_data\voice\data.
  • Video generieren
    • Rufen Sie die oben genannten Audio- und Video-Compositing-APIs auf, um ein Avatar-Video mit Aktionen zu erzeugen.
  • Vorschau und Anpassung
    • Der Effekt wird über den Client in der Vorschau angezeigt und kann nach Anpassung der Parameter neu generiert werden.

Tipps & Tricks

  • MaterialbedarfFotos müssen gleichmäßig beleuchtet sein und Sprache muss frei von Rauschen sein.
  • Mehrsprachige Unterstützung: eingestellt in den API-Parametern lang ist der entsprechende Sprachcode (z. B. "zh" für Chinesisch).
  • Unterstützung für Entwickler: Referenz src/main/service Unterhalb des Codes können Sie die Funktionalität anpassen.

caveat

  • Das System muss die Platzanforderungen von 100 GB für Laufwerk C und 30 GB für Laufwerk D erfüllen.
  • Stellen Sie vor der Installation von Docker sicher, dass WSL aktiviert ist.
  • Für das Herunterladen des Images sind 70 GB Datenvolumen erforderlich, ein stabiles WiFi wird empfohlen.
CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " HeyGem: Silicon Intelligence's Open Source Heygen Digital Human Pincushion Produkt

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)