Ichigo (llama3-s) : assistant vocal local en temps réel, version open source de Siri
Introduction générale
Ichigo est un projet open source d'IA vocale en temps réel qui vise à étendre les modèles de langage basés sur le texte avec des capacités d'écoute natives. Le projet utilise des techniques de fusion précoces inspirées de l'article de Meta sur le caméléon. Ichigo vise à devenir un assistant vocal pondéré à code source ouvert pour les appareils natifs, similaire à Siri. Le projet est en cours et les partenaires sont invités à se joindre à l'effort de crowdsourcing pour faire progresser l'ensemble de données vocales.

Liste des fonctions
- Reconnaissance vocale en temps réelLa capacité de traiter et de comprendre les données vocales de l'utilisateur en temps réel.
- Capacité de dialogue à plusieurs toursLe candidat est capable de soutenir plusieurs tours de table et de maintenir le contexte dans le dialogue.
- gestion du bruitL'expérience de l'utilisateur est améliorée par la possibilité de refuser de traiter des données audio non vocales grâce à une formation.
- Open source et évolutifLe code du projet et les poids du modèle sont entièrement libres et les utilisateurs sont libres de les télécharger et de les étendre.
- déploiement localLes services d'aide à la décision : ils peuvent être déployés sur des appareils locaux afin de protéger la vie privée des utilisateurs.
Utiliser l'aide
Processus d'installation
- Préparation de l'environnement : :
- Assurez-vous que Python 3.8 ou supérieur est installé.
- Installer les bibliothèques de dépendances nécessaires :
pip install -r requirements.txt
.
- Télécharger les modèles : :
- Utilisez la commande suivante pour télécharger le modèle Ichigo :
git clone https://github.com/homebrewltd/ichigo.git cd ichigo pip install -e .
- Utilisez la commande suivante pour télécharger le modèle Ichigo :
- Configuration de l'ensemble de données : :
- Téléchargez le jeu de données requis à partir de HuggingFace et définissez le chemin du jeu de données dans le fichier de configuration.
- Démonstration de lancement : :
- Démarrez la démo Gradio locale avec la commande suivante :
python demo.py --use-4bit --use-8bit
- Démarrez la démo Gradio locale avec la commande suivante :
Processus d'utilisation
- Démarrage des services : :
- Après avoir exécuté la commande ci-dessus, visitez l'URL fournie localement pour accéder à l'interface Web UI d'Ichigo.
- saisie vocale : :
- Dans l'interface Web, cliquez sur l'icône du microphone pour commencer l'enregistrement. Le système traitera et affichera les résultats de la reconnaissance vocale en temps réel.
- un dialogue à plusieurs niveaux : :
- Le système prend en charge plusieurs cycles de dialogue, où l'utilisateur peut continuellement saisir des paroles et où le système maintient le contexte pour comprendre et répondre.
- gestion du bruit : :
- Le système est entraîné à reconnaître et à rejeter le traitement des entrées audio non vocales, ce qui garantit la précision des résultats de la reconnaissance.
- Extensions personnalisées : :
- Les utilisateurs peuvent modifier le code et le modèle en fonction des besoins pour ajouter de nouvelles fonctionnalités ou améliorer les fonctionnalités existantes.
Procédure d'utilisation détaillée
- Téléchargement et installation : :
- Visitez la page GitHub d'Ichigo et suivez le processus d'installation pour télécharger et installer les dépendances et les modèles nécessaires.
- Configuration et démarrage : :
- Selon le fichier de configuration fourni par le projet, définir le chemin d'accès au jeu de données et les paramètres du modèle pour démarrer le service local.
- Utilisation de l'interface Web : :
- Découvrez la reconnaissance vocale en temps réel d'Ichigo et les capacités de dialogue à plusieurs voix grâce à la saisie vocale et à l'interaction via l'interface Web UI.
- Extension et personnalisation : :
- Comprendre l'architecture et le fonctionnement du système sur la base de la documentation du projet et des commentaires du code pour les extensions personnalisées.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...