Open-LLM-VTuber : un compagnon virtuel d'IA animé en Live2D pour une interaction vocale en temps réel
Introduction générale
Open-LLM-VTuber est un projet open source qui permet aux utilisateurs d'interagir avec les grands modèles de langage (LLM) par le biais de la parole et du texte, et qui intègre la technologie Live2D pour présenter des personnages virtuels dynamiques. Il prend en charge Windows, macOS et Linux, fonctionne complètement hors ligne et dispose de modes client web et bureau. Les utilisateurs peuvent l'utiliser comme petite amie virtuelle, animal de compagnie ou assistant de bureau, créant ainsi un compagnon IA personnalisé en personnalisant son apparence, sa personnalité et sa voix. Le projet a débuté comme une réplique de l'ancre virtuelle d'IA à code source fermé "neuro-sama" et a évolué pour devenir une plateforme riche en fonctionnalités qui prend en charge plusieurs modèles de langage, la reconnaissance vocale, la synthèse vocale et la perception visuelle. La version actuelle a été remaniée avec la version 1.0.0 et fait l'objet d'un développement actif, d'autres fonctionnalités devant être ajoutées à l'avenir.


Liste des fonctions
- interaction vocaleL'IA est un outil d'aide à la communication : grâce au dialogue vocal mains libres, les utilisateurs peuvent interrompre l'IA à tout moment pour une communication sans heurts.
- Animation Live2DAvatars dynamiques intégrés qui génèrent des expressions et des actions basées sur le contenu du dialogue.
- Support multiplateformeCompatible avec Windows, macOS et Linux, prend en charge le fonctionnement des GPU et CPU NVIDIA/non-NVIDIA.
- fonctionnement hors ligneToutes les fonctions peuvent être exécutées sans réseau afin de garantir le respect de la vie privée et la sécurité.
- Mode animaux de bureauLes caractères peuvent être déplacés vers n'importe quelle position sur l'écran.
- la perception visuelleInteraction vidéo avec l'IA grâce à la reconnaissance du contenu de la caméra ou de l'écran.
- Prise en charge de plusieurs modèlesCompatible avec une large gamme de LLMs tels que Ollama, OpenAI, Claude, Mistral, et d'autres modules vocaux tels que sherpa-onnx et Whisper.
- Personnalisation des personnagesLes modèles Live2D peuvent être importés pour ajuster le personnage et la voix.
- retour haptiqueLes personnages : Cliquez ou faites glisser le personnage pour déclencher une réponse interactive.
- Enregistrement des chatsLes dialogues historiques : Prise en charge de la commutation des dialogues historiques et de la conservation du contenu interactif.
Utiliser l'aide
Processus d'installation
Open-LLM-VTuber doit être déployé localement, voici les étapes détaillées :
1. les conditions préalables
- logicielPrise en charge des ordinateurs Windows, macOS ou Linux dotés d'un GPU NVIDIA recommandé (peut être exécuté sans GPU).
- matérielInstaller Git, Python 3.10+ et uv (l'outil de gestion de paquets recommandé).
- réticulationLe déploiement initial nécessite une connexion Internet pour télécharger la dépendance. Il est recommandé aux utilisateurs chinois d'utiliser un proxy d'accélération.
2. téléchargement du code
- Clonez le projet dans le terminal :
git clone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber --recursive cd Open-LLM-VTuber
- Ou téléchargez le dernier fichier ZIP depuis GitHub Release et extrayez-le.
- Remarque : si elle n'est pas utilisée
--recursive
Obligatoire pour fonctionnergit submodule update --init
Obtenir le sous-module frontal.
3. installation des dépendances
- Installer uv :
- Windows (PowerShell) :
irm https://astral.sh/uv/install.ps1 | iex
- macOS/Linux :
curl -LsSf https://astral.sh/uv/install.sh | sh
- Windows (PowerShell) :
- Exécuter dans le répertoire du projet :
uv sync
Installe automatiquement FastAPI, onnxruntime et d'autres dépendances.
4. environnement de configuration
- La première exécution génère un fichier de configuration :
uv run run_server.py
- Modifier le fichier généré
conf.yaml
Configurez les éléments suivants :- LLMSélectionnez le modèle (par ex. Ollama (pour llama3 ou OpenAI API, la clé doit être remplie).
- ASRModule de reconnaissance vocale (par exemple, sherpa-onnx).
- TTSModules de synthèse vocale (par exemple Edge TTS).
- Exemple :
llm: provider: ollama model: llama3 asr: provider: sherpa-onnx tts: provider: edge-tts
5) Activation des services
- La course à pied :
uv run run_server.py
- entretiens
http://localhost:8000
Utilisez la version web ou téléchargez le client de bureau pour l'exécuter.
6. client de bureau (facultatif)
- Télécharger la version GitHub
open-llm-vtuber-electron
(.exe pour Windows, .dmg pour macOS). - Lancez le client et assurez-vous que le service back-end est en cours d'exécution afin d'expérimenter le mode "desktop pet".
7. mise à jour et désinstallation
- mise à jour: après la v1.0.0
uv run update.py
Les mises à jour, les versions antérieures doivent être redéployées avec la documentation la plus récente. - désinstallationSupprimer le dossier du projet, vérifier
MODELSCOPE_CACHE
peut-êtreHF_HOME
Les fichiers du modèle dans le modèle, la désinstallation d'outils tels que uv.
Fonction Opération Déroulement
interaction vocale
- Activer la voixCliquez sur l'icône "Microphone" sur la page web ou dans le client.
- dialoguesL'IA répond en temps réel ; appuyez sur le bouton "Interruption" pour interrompre l'IA.
- optimisation: en
conf.yaml
Ajustez les modules ASR et TTS pour améliorer la reconnaissance et la prononciation.
Personnalisation des personnages
- Modèle d'importation: Placez le fichier .moc3 dans le répertoire
frontend/live2d_models
Catalogue. - Adaptation de la personnalité: : Editorial
conf.yaml
(utilisé comme expression nominale)prompt
Comme une "gentille grande sœur". - Personnalisation du sonLes outils d'aide à la décision : Enregistrez des échantillons à l'aide d'outils tels que GPTSoVITS afin de générer des voix uniques.
Mode animaux de bureau
- Mode ouvertDans le client, sélectionnez "Desktop Pets", cochez "Transparent Background" et "Top".
- image animée: Faire glisser à n'importe quel endroit de l'écran.
- l'interactivitéLes personnages : Tapez sur un personnage pour déclencher un retour haptique et voir un monologue intérieur ou un changement d'expression.
la perception visuelle
- Activer la caméraCliquez sur "Video Chat" pour autoriser l'accès.
- reconnaissance à l'écranSélectionnez "Screen Sense" pour que l'IA analyse le contenu de l'écran.
- exemple typiqueDemandez "qu'est-ce qu'il y a sur l'écran" et l'IA décrit l'image.
mise en garde
- navigateur (logiciel)Chrome est recommandé, d'autres navigateurs peuvent affecter l'affichage de Live2D.
- représentationsL'accélération du GPU nécessite des pilotes correctement configurés et peut s'exécuter plus lentement sur le CPU.
- licenceLe modèle d'échantillon intégré de Live2D est soumis à une licence distincte. Pour une utilisation commerciale, veuillez contacter Live2D Inc.
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...