"Assistant IA Deepseek toujours actif : construction d'un système d'interaction vocale intelligent basé sur Deepseek-V3
Introduction générale
Always-On AI Assistant est un projet innovant d'assistant d'IA qui crée un système d'assistant d'IA puissant et permanent en ligne en intégrant des technologies avancées telles que Deepseek-V3, RealtimeSTT et Typer. Le projet est spécialement optimisé pour les scénarios de développement de l'ingénierie, fournissant une interface d'interaction vocale complète et un cadre d'exécution des commandes. Le système adopte une conception modulaire et comprend une interface de chat d'assistant de base et un système de commande de session d'assistant avancé Typer, prenant en charge la reconnaissance vocale en temps réel et les fonctions de synthèse vocale. En intégrant la technologie de synthèse vocale d'ElevenLabs et les capacités de reconnaissance vocale en temps réel de RealtimeSTT, le projet fournit aux développeurs un paradigme complet de développement d'assistants d'intelligence artificielle, rendant plus facile et plus efficace la création d'assistants vocaux intelligents.

Liste des fonctions
- Système de reconnaissance vocale et de réponse en temps réel
- Moteur de dialogue intelligent basé sur Deepseek-V3
- Cadre d'exécution des commandes Typer personnalisable
- Prise en charge des opérations multimodes (par défaut, exécution, exécution sans mémoire)
- Système de gestion dynamique de la mémoire (Scratchpad)
- Architecture d'assistant hautement configurable
- Prise en charge de la reconnaissance vocale native
- ElevenLabs Intégration de la synthèse vocale de haute qualité
- Système de modèles de commande extensible
- Possibilité de sessions interactives en temps réel
Utiliser l'aide
1. configuration de l'environnement
1.1 Configuration de base
- Commencez par cloner le projet localement
- Copier le fichier de configuration de l'environnement : exécuter
cp .env.sample .env
- Mettre à jour la clé API :
- Définir DEEPSEEK_API_KEY (pour l'accès au modèle AI)
- Réglage de ELEVEN_API_KEY (pour la synthèse vocale)
- réaliser
uv sync
dépendance de synchronisation - Facultatif : Installer Python 3.11 (en utilisant la commande
uv python install 3.11
)
1.2 Exigences du système
- Python 3.11 ou version ultérieure.
- Connexion réseau stable
- Matériel de microphone (pour l'entrée vocale)
- dispositif de sortie audio (ordinateur)
2. description de l'utilisation des principales fonctions
2.1 Interface de base du chat avec l'assistant
- Commande de démarrage :
uv run python main_base_assistant.py chat
- Un écran de dialogue de base s'ouvre alors
- Possibilité d'interaction textuelle ou vocale directe
- Réponse vocale à l'aide d'un système TTS natif
2.2 Système de commande de session de l'assistant Typer
- Commande de démarrage :
uv run python main_typer_assistant.py awaken --typer-file commands/template.py --scratchpad scratchpad.md --mode execute
- Paramètre Description :
- --typer-file : spécifie l'emplacement du fichier de modèle de commande
- --scratchpad : définit le fichier de mémoire dynamique de l'assistant
- --mode : définit le mode de fonctionnement (default/execute/execute-no-scratch)
2.3 Interagir avec les assistants
- L'appel au réveil "Ada" a été clairement prononcé.
- Donnez des instructions, par exemple : "Ada, envoie un ping au serveur et attends une réponse".
- L'assistant reconnaît la parole en temps réel et exécute les commandes en conséquence
- Les résultats de l'exécution sont enregistrés dans le fichier scratchpad.md
3. description des composants architecturaux
3.1 Architecture de l'assistant Typer
- Cerveau : utilisation de Deepseek V3 comme moteur d'IA de base
- Gestion des tâches : définie via le fichier prompts/typer-commands.xml
- Mémoire dynamique : gestion de l'état à l'aide de scratchpad.txt
- Reconnaissance vocale : conversion de la parole en texte en temps réel à l'aide de RealtimeSTT
- Synthèse vocale : l'intégration avec ElevenLabs permet une sortie vocale naturelle
3.2 Architecture de l'assistant à l'infrastructure
- Moteur de base : utilisation de ollama:phi4
- Conception simplifiée : aucun indice supplémentaire ou mémoire dynamique n'est nécessaire.
- Reconnaissance vocale : également avec RealtimeSTT
- Sortie vocale : utilisation du système TTS local
4. configuration des fonctions avancées
- Les configurations de l'assistant peuvent être personnalisées via le fichier assistant_config.yml
- Prise en charge de l'ajout de commandes Typer personnalisées
- Les paramètres de reconnaissance et de synthèse vocales peuvent être ajustés
- Soutien à l'extension de nouveaux modules fonctionnels
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...