Open-LLM-VTuber: Live2D-animierter virtueller KI-Begleiter für Echtzeit-Sprachinteraktion

Neueste AI-RessourcenGeschrieben vor 5 Monaten AI-Austauschkreis

1.8K 00

Allgemeine Einführung

Open-LLM-VTuber ist ein Open-Source-Projekt, das es Nutzern ermöglicht, mit Large Language Models (LLMs) durch Sprache und Text zu interagieren, und das die Live2D-Technologie zur Darstellung dynamischer virtueller Charaktere nutzt. Es unterstützt Windows, macOS und Linux, läuft komplett offline und hat sowohl Web- als auch Desktop-Client-Modi. Nutzer können es als virtuelle Freundin, Haustier oder Desktop-Assistentin verwenden und so einen persönlichen KI-Begleiter schaffen, indem sie sein Aussehen, seine Persönlichkeit und seine Stimme anpassen. Das Projekt begann als Replik des quelloffenen virtuellen KI-Ankers "neuro-sama" und hat sich zu einer funktionsreichen Plattform entwickelt, die mehrere Sprachmodelle, Spracherkennung, Text-to-Speech und visuelle Wahrnehmung unterstützt. Die aktuelle Version wurde mit v1.0.0 überarbeitet und befindet sich in aktiver Entwicklung, wobei in Zukunft weitere Funktionen hinzugefügt werden sollen.

Funktionsliste

SprachinteraktionUnterstützung für freihändigen Sprachdialog: Der Benutzer kann die KI jederzeit unterbrechen, um eine reibungslose Kommunikation zu gewährleisten.
Live2D-AnimationEingebaute dynamische Avatare, die Ausdrücke und Aktionen auf der Grundlage von Dialoginhalten erzeugen.
Plattformübergreifende UnterstützungKompatibel mit Windows, macOS und Linux, unterstützt NVIDIA/nicht-NVIDIA GPU und CPU Betrieb.
Offline-BetriebAlle Funktionen können ohne Netzwerk ausgeführt werden, um Privatsphäre und Sicherheit zu gewährleisten.
Desktop-HaustiermodusTransparenter Hintergrund, globaler oberer Rand und Mauspenetration werden unterstützt, und die Zeichen können an eine beliebige Position auf dem Bildschirm gezogen werden.
visuelle WahrnehmungVideointeraktion mit KI durch Kamera- oder Bildschirminhaltserkennung.
Unterstützung mehrerer ModelleKompatibel mit einer breiten Palette von LLMs wie Ollama, OpenAI, Claude, Mistral und anderen Sprachmodulen wie Sherpa-onnx und Whisper.
Charakter-Anpassung: Live2D-Modelle können importiert werden, um Charakter und Stimme anzupassen.
haptisches FeedbackKlicken oder ziehen Sie die Figur, um eine interaktive Reaktion auszulösen.
Chat-AufzeichnungUnterstützung für den Wechsel von historischen Dialogen und die Beibehaltung interaktiver Inhalte.

Hilfe verwenden

Einbauverfahren

Open-LLM-VTuber muss lokal installiert werden, hier sind die detaillierten Schritte:

1. voraussetzungen

SoftwareUnterstützung für Windows-, macOS- oder Linux-Computer mit empfohlenen NVIDIA-Grafikprozessoren (kann auch ohne Grafikprozessor ausgeführt werden).
HardwareInstallieren Sie Git, Python 3.10+ und uv (das empfohlene Paketverwaltungstool).
VernetzungenDie Erstinstallation erfordert eine Internetverbindung, um die Abhängigkeit herunterzuladen. Es wird empfohlen, dass chinesische Benutzer eine Proxy-Beschleunigung verwenden.

2) Herunterladen von Code

Klonen Sie das Projekt über das Terminal:

git clone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber --recursive  
cd Open-LLM-VTuber

Oder laden Sie die neueste ZIP-Datei von GitHub Release herunter und entpacken Sie sie.
Hinweis: Wenn nicht verwendet --recursiveZum Ausführen erforderlich git submodule update --init Holen Sie sich das Front-End-Submodul.

3. die Installation von Abhängigkeiten

Installieren Sie uv:

Windows (PowerShell):

irm https://astral.sh/uv/install.ps1 | iex

macOS/Linux:

curl -LsSf https://astral.sh/uv/install.sh | sh

Im Projektverzeichnis ausführen:
```
uv sync
```
Installiert automatisch FastAPI, onnxruntime und andere Abhängigkeiten.

4. die Konfigurationsumgebung

Der erste Lauf erzeugt eine Konfigurationsdatei:
```
uv run run_server.py
```
Bearbeiten Sie die generierten conf.yamlkonfigurieren Sie Folgendes:
- LLM: Wählen Sie das Modell (z.B. Ollama (für die Lama3- oder OpenAI-API muss der Schlüssel eingegeben werden).
- ASRSpracherkennungsmodul (z. B. sherpa-onnx).
- TTSText-to-Speech-Module (z. B. Edge TTS).

Beispiel:

llm:  
provider: ollama  
model: llama3  
asr:  
provider: sherpa-onnx  
tts:  
provider: edge-tts

5. die Aktivierung von Diensten

Laufen:
```
uv run run_server.py
```
Interviews http://localhost:8000 Verwenden Sie die Webversion oder laden Sie den Desktop-Client herunter, um ihn auszuführen.

6) Desktop-Client (optional)

Herunterladen von GitHub Release open-llm-vtuber-electron(.exe für Windows, .dmg für macOS).
Starten Sie den Client und vergewissern Sie sich, dass der Back-End-Dienst läuft, um den Desktop-Pet-Modus zu erleben.

7. aktualisierung und deinstallation

Update: nach v1.0.0 uv run update.py Aktualisierungen, frühere Versionen müssen mit der neuesten Dokumentation neu bereitgestellt werden.
Deinstallation: Löschen Sie den Projektordner, prüfen Sie MODELSCOPE_CACHE vielleicht HF_HOME Die Modelldateien im Modell, die Deinstallation von Tools wie uv.

Funktion Betriebsablauf

Sprachinteraktion

Sprache einschaltenKlicken Sie auf das Symbol "Mikrofon" auf der Webseite oder im Client.
DialogeSprechen Sie direkt und die KI antwortet in Echtzeit; drücken Sie die Taste "Unterbrechen", um die KI zu unterbrechen.
Optimierung: in conf.yaml Passen Sie die ASR- und TTS-Module an, um die Erkennung und Aussprache zu verbessern.

Charakter-Anpassung

Modell importieren: Legen Sie die .moc3-Datei in den Ordner frontend/live2d_models Katalog.
Anpassung der Persönlichkeit:: Leitartikel conf.yaml (in Form eines Nominalausdrucks) promptWie eine "sanfte große Schwester".
Sound-AnpassungAufnehmen von Samples mit Tools wie GPTSoVITS, um einzigartige Stimmen zu erzeugen.

Desktop-Haustiermodus

Offener ModusIm Client wählen Sie "Desktop Pets", markieren Sie "Transparenter Hintergrund" und "Oben".
bewegtes BildZiehen Sie an eine beliebige Stelle auf dem Bildschirm.
InteraktivitätTippen Sie auf eine Figur, um ein haptisches Feedback auszulösen und einen inneren Monolog oder eine Veränderung des Ausdrucks zu sehen.

visuelle Wahrnehmung

Kamera aktivierenKlicken Sie auf "Video-Chat", um den Zugang zu autorisieren.
On-Screen-ErkennungWählen Sie "Screen Sense" für AI, um den Bildschirminhalt zu analysieren.
typisches BeispielFragen Sie "Was ist auf dem Bildschirm", und die KI wird das Bild beschreiben.

caveat

Browser (Software)Chrome wird empfohlen, andere Browser können die Live2D-Anzeige beeinträchtigen.
LeistungenGPU-Beschleunigung: Die GPU-Beschleunigung erfordert ordnungsgemäß konfigurierte Treiber und kann auf der CPU langsamer laufen.
LizenzDas integrierte Live2D-Beispielmodell unterliegt einer separaten Lizenz; für die kommerzielle Nutzung wenden Sie sich an Live2D Inc.