Allgemeine Einführung
Open-LLM-VTuber ist ein Open-Source-Projekt, das es Nutzern ermöglicht, mit Large Language Models (LLMs) durch Sprache und Text zu interagieren, und das die Live2D-Technologie zur Darstellung dynamischer virtueller Charaktere nutzt. Es unterstützt Windows, macOS und Linux, läuft komplett offline und hat sowohl Web- als auch Desktop-Client-Modi. Nutzer können es als virtuelle Freundin, Haustier oder Desktop-Assistentin verwenden und so einen persönlichen KI-Begleiter schaffen, indem sie sein Aussehen, seine Persönlichkeit und seine Stimme anpassen. Das Projekt begann als Replik des quelloffenen virtuellen KI-Ankers "neuro-sama" und hat sich zu einer funktionsreichen Plattform entwickelt, die mehrere Sprachmodelle, Spracherkennung, Text-to-Speech und visuelle Wahrnehmung unterstützt. Die aktuelle Version wurde mit v1.0.0 überarbeitet und befindet sich in aktiver Entwicklung, wobei in Zukunft weitere Funktionen hinzugefügt werden sollen.
Funktionsliste
- Sprach-InteraktionUnterstützung für freihändigen Sprachdialog: Der Benutzer kann die KI jederzeit unterbrechen, um eine reibungslose Kommunikation zu gewährleisten.
- Live2D-AnimationEingebaute dynamische Avatare, die Ausdrücke und Aktionen auf der Grundlage von Dialoginhalten erzeugen.
- Plattformübergreifende UnterstützungKompatibel mit Windows, macOS und Linux, unterstützt NVIDIA/nicht-NVIDIA GPU und CPU Betrieb.
- Offline-BetriebAlle Funktionen können ohne Netzwerk ausgeführt werden, um Privatsphäre und Sicherheit zu gewährleisten.
- Desktop-HaustiermodusTransparenter Hintergrund, globaler oberer Rand und Mauspenetration werden unterstützt, und die Zeichen können an eine beliebige Position auf dem Bildschirm gezogen werden.
- visuelle WahrnehmungVideointeraktion mit KI durch Kamera- oder Bildschirminhaltserkennung.
- Unterstützung mehrerer ModelleKompatibel mit einer breiten Palette von LLMs wie Ollama, OpenAI, Claude, Mistral und anderen Sprachmodulen wie Sherpa-onnx und Whisper.
- Charakter-Anpassung: Live2D-Modelle können importiert werden, um Charakter und Stimme anzupassen.
- haptisches FeedbackKlicken oder ziehen Sie die Figur, um eine interaktive Reaktion auszulösen.
- Chat-AufzeichnungUnterstützung für den Wechsel von historischen Dialogen und die Beibehaltung interaktiver Inhalte.
Hilfe verwenden
Ablauf der Installation
Open-LLM-VTuber muss lokal installiert werden, hier sind die detaillierten Schritte:
1. voraussetzungen
- SoftwareUnterstützung für Windows-, macOS- oder Linux-Computer mit empfohlenen NVIDIA-Grafikprozessoren (kann auch ohne Grafikprozessor ausgeführt werden).
- HardwareInstallieren Sie Git, Python 3.10+ und uv (das empfohlene Paketverwaltungstool).
- VernetzungenDie Erstinstallation erfordert eine Internetverbindung, um die Abhängigkeit herunterzuladen. Es wird empfohlen, dass chinesische Benutzer eine Proxy-Beschleunigung verwenden.
2) Herunterladen von Code
- Klonen Sie das Projekt über das Terminal:
git clone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber --recursive cd Open-LLM-VTuber
- Oder laden Sie die neueste ZIP-Datei von GitHub Release herunter und entpacken Sie sie.
- Hinweis: Wenn nicht verwendet
--Rekursiv
Zum Ausführen erforderlichgit submodule update --init
Holen Sie sich das Front-End-Submodul.
3. die Installation von Abhängigkeiten
- Installieren Sie uv:
- Windows (PowerShell):
irm https://astral.sh/uv/install.ps1 | iex
- macOS/Linux:
curl -LsSf https://astral.sh/uv/install.sh | sh
- Windows (PowerShell):
- Im Projektverzeichnis ausführen:
uv .
Installiert automatisch FastAPI, onnxruntime und andere Abhängigkeiten.
4. die Konfigurationsumgebung
- Der erste Lauf erzeugt eine Konfigurationsdatei:
uv run run_server.py
- Bearbeiten Sie die generierten
conf.yaml
konfigurieren Sie Folgendes:- LLM: Wählen Sie das Modell (z.B. Ollama (für Lama3 oder OpenAI API muss der Schlüssel eingegeben werden).
- ASRSpracherkennungsmodul (z. B. sherpa-onnx).
- TTSText-to-Speech-Module (z. B. Edge TTS).
- Beispiel:
llm. anbieter: ollama Modell: Llama3 asr. Anbieter: sherpa-onnx asr: Anbieter: sherpa-onnx anbieter: edge-tts
5. die Aktivierung von Diensten
- Laufen:
uv run run_server.py
- Interviews
http://localhost:8000
Verwenden Sie die Webversion oder laden Sie den Desktop-Client herunter, um ihn auszuführen.
6) Desktop-Client (optional)
- Herunterladen von GitHub Release
open-llm-vtuber-electron
(.exe für Windows, .dmg für macOS). - Starten Sie den Client und vergewissern Sie sich, dass der Back-End-Dienst läuft, um den Desktop-Pet-Modus zu erleben.
7. aktualisierung und deinstallation
- Update: nach v1.0.0
uv run update.py
Aktualisierungen, frühere Versionen müssen mit der neuesten Dokumentation neu bereitgestellt werden. - Deinstallation: Löschen Sie den Projektordner, prüfen Sie
MODELSCOPE_CACHE
vielleichtHF_HOME
Modelldateien, deinstallieren Sie Werkzeuge wie uv.
Funktion Betriebsablauf
Sprach-Interaktion
- Sprache einschaltenKlicken Sie auf das Symbol "Mikrofon" auf der Webseite oder im Client.
- DialogeSprechen Sie direkt und die KI antwortet in Echtzeit; drücken Sie die Taste "Unterbrechen", um die KI zu unterbrechen.
- Optimierung: in
conf.yaml
Passen Sie die ASR- und TTS-Module an, um die Erkennung und Aussprache zu verbessern.
Charakter-Anpassung
- Modell importieren: Legen Sie die .moc3-Datei in den Ordner
frontend/live2d_models
Katalog. - Anpassung der Persönlichkeit:: Leitartikel
conf.yaml
(in Form eines Nominalausdrucks)Aufforderung
Wie eine "sanfte große Schwester". - Sound-AnpassungAufnehmen von Samples mit Tools wie GPTSoVITS, um einzigartige Stimmen zu erzeugen.
Desktop-Haustiermodus
- Offener ModusIm Client wählen Sie "Desktop Pets", markieren Sie "Transparenter Hintergrund" und "Oben".
- bewegtes BildZiehen Sie an eine beliebige Stelle auf dem Bildschirm.
- InteraktivitätTippen Sie auf eine Figur, um ein haptisches Feedback auszulösen, einen inneren Monolog zu sehen oder den Ausdruck zu verändern.
visuelle Wahrnehmung
- Kamera aktivierenKlicken Sie auf "Video-Chat", um den Zugang zu autorisieren.
- On-Screen-ErkennungWählen Sie "Screen Sense" für AI, um den Bildschirminhalt zu analysieren.
- typisches BeispielFragen Sie "Was ist auf dem Bildschirm", und die KI beschreibt das Bild.
caveat
- Browser (Software)Chrome wird empfohlen, andere Browser können die Live2D-Anzeige beeinträchtigen.
- LeistungenGPU-Beschleunigung: Die GPU-Beschleunigung erfordert ordnungsgemäß konfigurierte Treiber und kann auf der CPU langsamer laufen.
- LizenzDas integrierte Live2D-Beispielmodell unterliegt einer separaten Lizenz; für die kommerzielle Nutzung wenden Sie sich an Live2D Inc.