Open-LLM-VTuber : un compagnon virtuel d'IA animé en Live2D pour une interaction vocale en temps réel

Dernières ressources sur l'IAPosté il y a 6 mois Cercle de partage de l'IA

26.6K 00

Introduction générale

Open-LLM-VTuber est un projet open source qui permet aux utilisateurs d'interagir avec les grands modèles de langage (LLM) par le biais de la parole et du texte, et qui intègre la technologie Live2D pour présenter des personnages virtuels dynamiques. Il prend en charge Windows, macOS et Linux, fonctionne complètement hors ligne et dispose de modes client web et bureau. Les utilisateurs peuvent l'utiliser comme petite amie virtuelle, animal de compagnie ou assistant de bureau, créant ainsi un compagnon IA personnalisé en personnalisant son apparence, sa personnalité et sa voix. Le projet a débuté comme une réplique de l'ancre virtuelle d'IA à code source fermé "neuro-sama" et a évolué pour devenir une plateforme riche en fonctionnalités qui prend en charge plusieurs modèles de langage, la reconnaissance vocale, la synthèse vocale et la perception visuelle. La version actuelle a été remaniée avec la version 1.0.0 et fait l'objet d'un développement actif, d'autres fonctionnalités devant être ajoutées à l'avenir.

Liste des fonctions

interaction vocaleL'IA est un outil d'aide à la communication : grâce au dialogue vocal mains libres, les utilisateurs peuvent interrompre l'IA à tout moment pour une communication sans heurts.
Animation Live2DAvatars dynamiques intégrés qui génèrent des expressions et des actions basées sur le contenu du dialogue.
Support multiplateformeCompatible avec Windows, macOS et Linux, prend en charge le fonctionnement des GPU et CPU NVIDIA/non-NVIDIA.
fonctionnement hors ligneToutes les fonctions peuvent être exécutées sans réseau afin de garantir le respect de la vie privée et la sécurité.
Mode animaux de bureauLes caractères peuvent être déplacés vers n'importe quelle position sur l'écran.
la perception visuelleInteraction vidéo avec l'IA grâce à la reconnaissance du contenu de la caméra ou de l'écran.
Prise en charge de plusieurs modèlesCompatible avec une large gamme de LLMs tels que Ollama, OpenAI, Claude, Mistral, et d'autres modules vocaux tels que sherpa-onnx et Whisper.
Personnalisation des personnagesLes modèles Live2D peuvent être importés pour ajuster le personnage et la voix.
retour haptiqueLes personnages : Cliquez ou faites glisser le personnage pour déclencher une réponse interactive.
Enregistrement des chatsLes dialogues historiques : Prise en charge de la commutation des dialogues historiques et de la conservation du contenu interactif.

Utiliser l'aide

Processus d'installation

Open-LLM-VTuber doit être déployé localement, voici les étapes détaillées :

1. les conditions préalables

logicielPrise en charge des ordinateurs Windows, macOS ou Linux dotés d'un GPU NVIDIA recommandé (peut être exécuté sans GPU).
matérielInstaller Git, Python 3.10+ et uv (l'outil de gestion de paquets recommandé).
réticulationLe déploiement initial nécessite une connexion Internet pour télécharger la dépendance. Il est recommandé aux utilisateurs chinois d'utiliser un proxy d'accélération.

2. téléchargement du code

Clonez le projet dans le terminal :

git clone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber --recursive  
cd Open-LLM-VTuber

Ou téléchargez le dernier fichier ZIP depuis GitHub Release et extrayez-le.
Remarque : si elle n'est pas utilisée --recursiveObligatoire pour fonctionner git submodule update --init Obtenir le sous-module frontal.

3. installation des dépendances

Installer uv :

Windows (PowerShell) :

irm https://astral.sh/uv/install.ps1 | iex

macOS/Linux :

curl -LsSf https://astral.sh/uv/install.sh | sh

Exécuter dans le répertoire du projet :
```
uv sync
```
Installe automatiquement FastAPI, onnxruntime et d'autres dépendances.

4. environnement de configuration

La première exécution génère un fichier de configuration :
```
uv run run_server.py
```
Modifier le fichier généré conf.yamlConfigurez les éléments suivants :
- LLMSélectionnez le modèle (par ex. Ollama (pour llama3 ou OpenAI API, la clé doit être remplie).
- ASRModule de reconnaissance vocale (par exemple, sherpa-onnx).
- TTSModules de synthèse vocale (par exemple Edge TTS).

Exemple :

llm:  
provider: ollama  
model: llama3  
asr:  
provider: sherpa-onnx  
tts:  
provider: edge-tts

5) Activation des services

La course à pied :
```
uv run run_server.py
```
entretiens http://localhost:8000 Utilisez la version web ou téléchargez le client de bureau pour l'exécuter.

6. client de bureau (facultatif)

Télécharger la version GitHub open-llm-vtuber-electron(.exe pour Windows, .dmg pour macOS).
Lancez le client et assurez-vous que le service back-end est en cours d'exécution afin d'expérimenter le mode "desktop pet".

7. mise à jour et désinstallation

mise à jour: après la v1.0.0 uv run update.py Les mises à jour, les versions antérieures doivent être redéployées avec la documentation la plus récente.
désinstallationSupprimer le dossier du projet, vérifier MODELSCOPE_CACHE peut-être HF_HOME Les fichiers du modèle dans le modèle, la désinstallation d'outils tels que uv.

Fonction Opération Déroulement

interaction vocale

Activer la voixCliquez sur l'icône "Microphone" sur la page web ou dans le client.
dialoguesL'IA répond en temps réel ; appuyez sur le bouton "Interruption" pour interrompre l'IA.
optimisation: en conf.yaml Ajustez les modules ASR et TTS pour améliorer la reconnaissance et la prononciation.

Personnalisation des personnages

Modèle d'importation: Placez le fichier .moc3 dans le répertoire frontend/live2d_models Catalogue.
Adaptation de la personnalité: : Editorial conf.yaml (utilisé comme expression nominale) promptComme une "gentille grande sœur".
Personnalisation du sonLes outils d'aide à la décision : Enregistrez des échantillons à l'aide d'outils tels que GPTSoVITS afin de générer des voix uniques.

Mode animaux de bureau

Mode ouvertDans le client, sélectionnez "Desktop Pets", cochez "Transparent Background" et "Top".
image animée: Faire glisser à n'importe quel endroit de l'écran.
l'interactivitéLes personnages : Tapez sur un personnage pour déclencher un retour haptique et voir un monologue intérieur ou un changement d'expression.

la perception visuelle

Activer la caméraCliquez sur "Video Chat" pour autoriser l'accès.
reconnaissance à l'écranSélectionnez "Screen Sense" pour que l'IA analyse le contenu de l'écran.
exemple typiqueDemandez "qu'est-ce qu'il y a sur l'écran" et l'IA décrit l'image.

mise en garde

navigateur (logiciel)Chrome est recommandé, d'autres navigateurs peuvent affecter l'affichage de Live2D.
représentationsL'accélération du GPU nécessite des pilotes correctement configurés et peut s'exécuter plus lentement sur le CPU.
licenceLe modèle d'échantillon intégré de Live2D est soumis à une licence distincte. Pour une utilisation commerciale, veuillez contacter Live2D Inc.