AI Personal Learning
und praktische Anleitung
Ali - bemalter Frosch

Open-LLM-VTuber: ein Live2D-animierter virtueller KI-Begleiter für Echtzeit-Sprachinteraktion

Allgemeine Einführung

Open-LLM-VTuber ist ein Open-Source-Projekt, das es Nutzern ermöglicht, mit Large Language Models (LLMs) durch Sprache und Text zu interagieren, und das die Live2D-Technologie zur Darstellung dynamischer virtueller Charaktere nutzt. Es unterstützt Windows, macOS und Linux, läuft komplett offline und hat sowohl Web- als auch Desktop-Client-Modi. Nutzer können es als virtuelle Freundin, Haustier oder Desktop-Assistentin verwenden und so einen persönlichen KI-Begleiter schaffen, indem sie sein Aussehen, seine Persönlichkeit und seine Stimme anpassen. Das Projekt begann als Replik des quelloffenen virtuellen KI-Ankers "neuro-sama" und hat sich zu einer funktionsreichen Plattform entwickelt, die mehrere Sprachmodelle, Spracherkennung, Text-to-Speech und visuelle Wahrnehmung unterstützt. Die aktuelle Version wurde mit v1.0.0 überarbeitet und befindet sich in aktiver Entwicklung, wobei in Zukunft weitere Funktionen hinzugefügt werden sollen.

Open-LLM-VTuber: ein Live2D-animierter virtueller KI-Begleiter für Echtzeit-Sprachinteraktion-1


Open-LLM-VTuber: ein Live2D-animierter virtueller KI-Begleiter für Echtzeit-Sprachinteraktion-1

 

Funktionsliste

  • Sprach-InteraktionUnterstützung für freihändigen Sprachdialog: Der Benutzer kann die KI jederzeit unterbrechen, um eine reibungslose Kommunikation zu gewährleisten.
  • Live2D-AnimationEingebaute dynamische Avatare, die Ausdrücke und Aktionen auf der Grundlage von Dialoginhalten erzeugen.
  • Plattformübergreifende UnterstützungKompatibel mit Windows, macOS und Linux, unterstützt NVIDIA/nicht-NVIDIA GPU und CPU Betrieb.
  • Offline-BetriebAlle Funktionen können ohne Netzwerk ausgeführt werden, um Privatsphäre und Sicherheit zu gewährleisten.
  • Desktop-HaustiermodusTransparenter Hintergrund, globaler oberer Rand und Mauspenetration werden unterstützt, und die Zeichen können an eine beliebige Position auf dem Bildschirm gezogen werden.
  • visuelle WahrnehmungVideointeraktion mit KI durch Kamera- oder Bildschirminhaltserkennung.
  • Unterstützung mehrerer ModelleKompatibel mit einer breiten Palette von LLMs wie Ollama, OpenAI, Claude, Mistral und anderen Sprachmodulen wie Sherpa-onnx und Whisper.
  • Charakter-Anpassung: Live2D-Modelle können importiert werden, um Charakter und Stimme anzupassen.
  • haptisches FeedbackKlicken oder ziehen Sie die Figur, um eine interaktive Reaktion auszulösen.
  • Chat-AufzeichnungUnterstützung für den Wechsel von historischen Dialogen und die Beibehaltung interaktiver Inhalte.

 

Hilfe verwenden

Ablauf der Installation

Open-LLM-VTuber muss lokal installiert werden, hier sind die detaillierten Schritte:

1. voraussetzungen

  • SoftwareUnterstützung für Windows-, macOS- oder Linux-Computer mit empfohlenen NVIDIA-Grafikprozessoren (kann auch ohne Grafikprozessor ausgeführt werden).
  • HardwareInstallieren Sie Git, Python 3.10+ und uv (das empfohlene Paketverwaltungstool).
  • VernetzungenDie Erstinstallation erfordert eine Internetverbindung, um die Abhängigkeit herunterzuladen. Es wird empfohlen, dass chinesische Benutzer eine Proxy-Beschleunigung verwenden.

2) Herunterladen von Code

  • Klonen Sie das Projekt über das Terminal:
    git clone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber --recursive
    cd Open-LLM-VTuber
  • Oder laden Sie die neueste ZIP-Datei von GitHub Release herunter und entpacken Sie sie.
  • Hinweis: Wenn nicht verwendet --RekursivZum Ausführen erforderlich git submodule update --init Holen Sie sich das Front-End-Submodul.

3. die Installation von Abhängigkeiten

  • Installieren Sie uv:
    • Windows (PowerShell):
      irm https://astral.sh/uv/install.ps1 | iex
      
    • macOS/Linux:
      curl -LsSf https://astral.sh/uv/install.sh | sh
      
  • Im Projektverzeichnis ausführen:
    uv .
    

    Installiert automatisch FastAPI, onnxruntime und andere Abhängigkeiten.

4. die Konfigurationsumgebung

  • Der erste Lauf erzeugt eine Konfigurationsdatei:
    uv run run_server.py
    
  • Bearbeiten Sie die generierten conf.yamlkonfigurieren Sie Folgendes:
    • LLM: Wählen Sie das Modell (z.B. Ollama (für Lama3 oder OpenAI API muss der Schlüssel eingegeben werden).
    • ASRSpracherkennungsmodul (z. B. sherpa-onnx).
    • TTSText-to-Speech-Module (z. B. Edge TTS).
  • Beispiel:
    llm.
    anbieter: ollama
    Modell: Llama3
    asr.
    Anbieter: sherpa-onnx
    asr: Anbieter: sherpa-onnx
    anbieter: edge-tts
    

5. die Aktivierung von Diensten

  • Laufen:
    uv run run_server.py
    
  • Interviews http://localhost:8000 Verwenden Sie die Webversion oder laden Sie den Desktop-Client herunter, um ihn auszuführen.

6) Desktop-Client (optional)

  • Herunterladen von GitHub Release open-llm-vtuber-electron(.exe für Windows, .dmg für macOS).
  • Starten Sie den Client und vergewissern Sie sich, dass der Back-End-Dienst läuft, um den Desktop-Pet-Modus zu erleben.

7. aktualisierung und deinstallation

  • Update: nach v1.0.0 uv run update.py Aktualisierungen, frühere Versionen müssen mit der neuesten Dokumentation neu bereitgestellt werden.
  • Deinstallation: Löschen Sie den Projektordner, prüfen Sie MODELSCOPE_CACHE vielleicht HF_HOME Modelldateien, deinstallieren Sie Werkzeuge wie uv.

Funktion Betriebsablauf

Sprach-Interaktion

  1. Sprache einschaltenKlicken Sie auf das Symbol "Mikrofon" auf der Webseite oder im Client.
  2. DialogeSprechen Sie direkt und die KI antwortet in Echtzeit; drücken Sie die Taste "Unterbrechen", um die KI zu unterbrechen.
  3. Optimierung: in conf.yaml Passen Sie die ASR- und TTS-Module an, um die Erkennung und Aussprache zu verbessern.

Charakter-Anpassung

  1. Modell importieren: Legen Sie die .moc3-Datei in den Ordner frontend/live2d_models Katalog.
  2. Anpassung der Persönlichkeit:: Leitartikel conf.yaml (in Form eines Nominalausdrucks) AufforderungWie eine "sanfte große Schwester".
  3. Sound-AnpassungAufnehmen von Samples mit Tools wie GPTSoVITS, um einzigartige Stimmen zu erzeugen.

Desktop-Haustiermodus

  1. Offener ModusIm Client wählen Sie "Desktop Pets", markieren Sie "Transparenter Hintergrund" und "Oben".
  2. bewegtes BildZiehen Sie an eine beliebige Stelle auf dem Bildschirm.
  3. InteraktivitätTippen Sie auf eine Figur, um ein haptisches Feedback auszulösen, einen inneren Monolog zu sehen oder den Ausdruck zu verändern.

visuelle Wahrnehmung

  1. Kamera aktivierenKlicken Sie auf "Video-Chat", um den Zugang zu autorisieren.
  2. On-Screen-ErkennungWählen Sie "Screen Sense" für AI, um den Bildschirminhalt zu analysieren.
  3. typisches BeispielFragen Sie "Was ist auf dem Bildschirm", und die KI beschreibt das Bild.

caveat

  • Browser (Software)Chrome wird empfohlen, andere Browser können die Live2D-Anzeige beeinträchtigen.
  • LeistungenGPU-Beschleunigung: Die GPU-Beschleunigung erfordert ordnungsgemäß konfigurierte Treiber und kann auf der CPU langsamer laufen.
  • LizenzDas integrierte Live2D-Beispielmodell unterliegt einer separaten Lizenz; für die kommerzielle Nutzung wenden Sie sich an Live2D Inc.
CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Open-LLM-VTuber: ein Live2D-animierter virtueller KI-Begleiter für Echtzeit-Sprachinteraktion

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)