Ichigo (llama3-s) : assistant vocal local en temps réel, version open source de Siri

Dernières ressources sur l'IAMise à jour il y a 8 mois Cercle de partage de l'IA

Introduction générale

Ichigo est un projet open source d'IA vocale en temps réel qui vise à étendre les modèles de langage basés sur le texte avec des capacités d'écoute natives. Le projet utilise des techniques de fusion précoces inspirées de l'article de Meta sur le caméléon. Ichigo vise à devenir un assistant vocal pondéré à code source ouvert pour les appareils natifs, similaire à Siri. Le projet est en cours et les partenaires sont invités à se joindre à l'effort de crowdsourcing pour faire progresser l'ensemble de données vocales.

Liste des fonctions

Reconnaissance vocale en temps réelLa capacité de traiter et de comprendre les données vocales de l'utilisateur en temps réel.
Capacité de dialogue à plusieurs toursLe candidat est capable de soutenir plusieurs tours de table et de maintenir le contexte dans le dialogue.
gestion du bruitL'expérience de l'utilisateur est améliorée par la possibilité de refuser de traiter des données audio non vocales grâce à une formation.
Open source et évolutifLe code du projet et les poids du modèle sont entièrement libres et les utilisateurs sont libres de les télécharger et de les étendre.
déploiement localLes services d'aide à la décision : ils peuvent être déployés sur des appareils locaux afin de protéger la vie privée des utilisateurs.

Utiliser l'aide

Processus d'installation

Préparation de l'environnement : :
- Assurez-vous que Python 3.8 ou supérieur est installé.
- Installer les bibliothèques de dépendances nécessaires :pip install -r requirements.txt.
Télécharger les modèles : :
- Utilisez la commande suivante pour télécharger le modèle Ichigo :
```
git clone https://github.com/homebrewltd/ichigo.git
cd ichigo
pip install -e .
```
Configuration de l'ensemble de données : :
- Téléchargez le jeu de données requis à partir de HuggingFace et définissez le chemin du jeu de données dans le fichier de configuration.
Démonstration de lancement : :
- Démarrez la démo Gradio locale avec la commande suivante :
```
python demo.py --use-4bit --use-8bit
```

Processus d'utilisation

Démarrage des services : :
- Après avoir exécuté la commande ci-dessus, visitez l'URL fournie localement pour accéder à l'interface Web UI d'Ichigo.
saisie vocale : :
- Dans l'interface Web, cliquez sur l'icône du microphone pour commencer l'enregistrement. Le système traitera et affichera les résultats de la reconnaissance vocale en temps réel.
un dialogue à plusieurs niveaux : :
- Le système prend en charge plusieurs cycles de dialogue, où l'utilisateur peut continuellement saisir des paroles et où le système maintient le contexte pour comprendre et répondre.
gestion du bruit : :
- Le système est entraîné à reconnaître et à rejeter le traitement des entrées audio non vocales, ce qui garantit la précision des résultats de la reconnaissance.
Extensions personnalisées : :
- Les utilisateurs peuvent modifier le code et le modèle en fonction des besoins pour ajouter de nouvelles fonctionnalités ou améliorer les fonctionnalités existantes.

Procédure d'utilisation détaillée

Téléchargement et installation : :
- Visitez la page GitHub d'Ichigo et suivez le processus d'installation pour télécharger et installer les dépendances et les modèles nécessaires.
Configuration et démarrage : :
- Selon le fichier de configuration fourni par le projet, définir le chemin d'accès au jeu de données et les paramètres du modèle pour démarrer le service local.
Utilisation de l'interface Web : :
- Découvrez la reconnaissance vocale en temps réel d'Ichigo et les capacités de dialogue à plusieurs voix grâce à la saisie vocale et à l'interaction via l'interface Web UI.
Extension et personnalisation : :
- Comprendre l'architecture et le fonctionnement du système sur la base de la documentation du projet et des commentaires du code pour les extensions personnalisées.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Llama 3.2 Reasoning WebGPU：在浏览器中运行LLama-3.2

Llama 3.2 Reasoning WebGPU : Exécuter Llama-3.2 dans un navigateur

Nouvelles de l'IA # AI Java Open Source Projecct # Outil de grand modèle à source ouverte déployé localement

Il y a 8 mois

09.3K

Utilisation ouverte de l'ordinateur E2B : faire fonctionner un système d'exploitation d'IA en toute sécurité dans le bac à sable de l'E2B

Dernières ressources sur l'IA # AI Java Open Source Projecct # Desktop Automation Intelligence

Il y a 8 mois

012.1K

DUIX : Des personnes numériques intelligentes pour une interaction en temps réel, permettant un déploiement multiplateforme en un seul clic

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Digital Man

Il y a 8 mois

013.1K

HiOllama : une interface de chat propre pour interagir avec les modèles natifs d'Ollama

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Localised Chat Application

Il y a 10 mois

011.7K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Ichigo (llama3-s) : assistant vocal local en temps réel, version open source de Siri

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Processus d'utilisation

Procédure d'utilisation détaillée

SFT-data-builder : générer des données d'entraînement à l'IA à l'aide de l'API gratuite pour les grands modèles, génération de données d'entraînement pour les grands modèles à un coût nul

VideoChat : personne numérique interactive vocale en temps réel avec clonage d'images et de tonalités personnalisées, prenant en charge des solutions vocales de bout en bout et des solutions en cascade.

Articles connexes

Llama 3.2 Reasoning WebGPU : Exécuter Llama-3.2 dans un navigateur

Utilisation ouverte de l'ordinateur E2B : faire fonctionner un système d'exploitation d'IA en toute sécurité dans le bac à sable de l'E2B

DUIX : Des personnes numériques intelligentes pour une interaction en temps réel, permettant un déploiement multiplateforme en un seul clic

HiOllama : une interface de chat propre pour interagir avec les modèles natifs d'Ollama

Pas de commentaires

Dernières collections

Derniers articles

Ichigo (llama3-s) : assistant vocal local en temps réel, version open source de Siri

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Processus d'utilisation

Procédure d'utilisation détaillée

SFT-data-builder : générer des données d'entraînement à l'IA à l'aide de l'API gratuite pour les grands modèles, génération de données d'entraînement pour les grands modèles à un coût nul

VideoChat : personne numérique interactive vocale en temps réel avec clonage d'images et de tonalités personnalisées, prenant en charge des solutions vocales de bout en bout et des solutions en cascade.

Articles connexes

Llama 3.2 Reasoning WebGPU : Exécuter Llama-3.2 dans un navigateur

Utilisation ouverte de l'ordinateur E2B : faire fonctionner un système d'exploitation d'IA en toute sécurité dans le bac à sable de l'E2B

DUIX : Des personnes numériques intelligentes pour une interaction en temps réel, permettant un déploiement multiplateforme en un seul clic

HiOllama : une interface de chat propre pour interagir avec les modèles natifs d'Ollama

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles