"Assistant IA Deepseek toujours actif : construction d'un système d'interaction vocale intelligent basé sur Deepseek-V3

Dernières ressources sur l'IAPosté il y a 8 mois Cercle de partage de l'IA

14.4K 00

Introduction générale

Always-On AI Assistant est un projet innovant d'assistant d'IA qui crée un système d'assistant d'IA puissant et permanent en ligne en intégrant des technologies avancées telles que Deepseek-V3, RealtimeSTT et Typer. Le projet est spécialement optimisé pour les scénarios de développement de l'ingénierie, fournissant une interface d'interaction vocale complète et un cadre d'exécution des commandes. Le système adopte une conception modulaire et comprend une interface de chat d'assistant de base et un système de commande de session d'assistant avancé Typer, prenant en charge la reconnaissance vocale en temps réel et les fonctions de synthèse vocale. En intégrant la technologie de synthèse vocale d'ElevenLabs et les capacités de reconnaissance vocale en temps réel de RealtimeSTT, le projet fournit aux développeurs un paradigme complet de développement d'assistants d'intelligence artificielle, rendant plus facile et plus efficace la création d'assistants vocaux intelligents.

Liste des fonctions

Système de reconnaissance vocale et de réponse en temps réel
Moteur de dialogue intelligent basé sur Deepseek-V3
Cadre d'exécution des commandes Typer personnalisable
Prise en charge des opérations multimodes (par défaut, exécution, exécution sans mémoire)
Système de gestion dynamique de la mémoire (Scratchpad)
Architecture d'assistant hautement configurable
Prise en charge de la reconnaissance vocale native
ElevenLabs Intégration de la synthèse vocale de haute qualité
Système de modèles de commande extensible
Possibilité de sessions interactives en temps réel

Utiliser l'aide

1. configuration de l'environnement

1.1 Configuration de base

Commencez par cloner le projet localement
Copier le fichier de configuration de l'environnement : exécuter cp .env.sample .env
Mettre à jour la clé API :
- Définir DEEPSEEK_API_KEY (pour l'accès au modèle AI)
- Réglage de ELEVEN_API_KEY (pour la synthèse vocale)
réaliser uv sync dépendance de synchronisation
Facultatif : Installer Python 3.11 (en utilisant la commande uv python install 3.11)

1.2 Exigences du système

Python 3.11 ou version ultérieure.
Connexion réseau stable
Matériel de microphone (pour l'entrée vocale)
dispositif de sortie audio (ordinateur)

2. description de l'utilisation des principales fonctions

2.1 Interface de base du chat avec l'assistant

Commande de démarrage :uv run python main_base_assistant.py chat
Un écran de dialogue de base s'ouvre alors
Possibilité d'interaction textuelle ou vocale directe
Réponse vocale à l'aide d'un système TTS natif

2.2 Système de commande de session de l'assistant Typer

Commande de démarrage :

uv run python main_typer_assistant.py awaken --typer-file commands/template.py --scratchpad scratchpad.md --mode execute

Paramètre Description :
- --typer-file : spécifie l'emplacement du fichier de modèle de commande
- --scratchpad : définit le fichier de mémoire dynamique de l'assistant
- --mode : définit le mode de fonctionnement (default/execute/execute-no-scratch)

2.3 Interagir avec les assistants

L'appel au réveil "Ada" a été clairement prononcé.
Donnez des instructions, par exemple : "Ada, envoie un ping au serveur et attends une réponse".
L'assistant reconnaît la parole en temps réel et exécute les commandes en conséquence
Les résultats de l'exécution sont enregistrés dans le fichier scratchpad.md

3. description des composants architecturaux

3.1 Architecture de l'assistant Typer

Cerveau : utilisation de Deepseek V3 comme moteur d'IA de base
Gestion des tâches : définie via le fichier prompts/typer-commands.xml
Mémoire dynamique : gestion de l'état à l'aide de scratchpad.txt
Reconnaissance vocale : conversion de la parole en texte en temps réel à l'aide de RealtimeSTT
Synthèse vocale : l'intégration avec ElevenLabs permet une sortie vocale naturelle

3.2 Architecture de l'assistant à l'infrastructure

Moteur de base : utilisation de ollama:phi4
Conception simplifiée : aucun indice supplémentaire ou mémoire dynamique n'est nécessaire.
Reconnaissance vocale : également avec RealtimeSTT
Sortie vocale : utilisation du système TTS local

4. configuration des fonctions avancées

Les configurations de l'assistant peuvent être personnalisées via le fichier assistant_config.yml
Prise en charge de l'ajout de commandes Typer personnalisées
Les paramètres de reconnaissance et de synthèse vocales peuvent être ajustés
Soutien à l'extension de nouveaux modules fonctionnels

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Fay Digital Human Framework : intégration de modèles linguistiques et de personnages numériques en 3D pour soutenir une variété de scénarios d'application.

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Digital Man

Il y a 8 mois

012.2K

Fogsight - AI Animation Generation Agent, thème d'entrée pour générer une animation complète

Dernières ressources sur l'IA

Il y a 1 mois

010.7K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU : extraction de documents PDF et conversion au format Markdown multimodal, prise en charge de la numérisation OCR des livres électroniques

Dernières ressources sur l'IA # AI Java Open Source Projecct # OCR # Extraction et nettoyage de documents

Il y a 11 mois

023.8K

BuffGPT : une plateforme de développement low-code pour des applications d'IA générative de niveau entreprise

Dernières ressources sur l'IA # AI Java Open Source Projecct # Flux de travail à code bas # Cadre de développement de l'organisme intelligent

Il y a 6 mois

012.6K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

"Assistant IA Deepseek toujours actif : construction d'un système d'interaction vocale intelligent basé sur Deepseek-V3

Introduction générale

Liste des fonctions

Utiliser l'aide

1. configuration de l'environnement

2. description de l'utilisation des principales fonctions

3. description des composants architecturaux

4. configuration des fonctions avancées

YourInterviewer : guide de dialogue à voix naturelle (interview) pour générer des articles personnalisés pour chaque média

NV Ingest : analyse de documents au format complexe, extraction de données multimodales en métadonnées et en texte

Articles connexes

Fay Digital Human Framework : intégration de modèles linguistiques et de personnages numériques en 3D pour soutenir une variété de scénarios d'application.

Fogsight - AI Animation Generation Agent, thème d'entrée pour générer une animation complète

MinerU : extraction de documents PDF et conversion au format Markdown multimodal, prise en charge de la numérisation OCR des livres électroniques

BuffGPT : une plateforme de développement low-code pour des applications d'IA générative de niveau entreprise

Pas de commentaires

Dernières collections

Derniers articles

"Assistant IA Deepseek toujours actif : construction d'un système d'interaction vocale intelligent basé sur Deepseek-V3

Introduction générale

Liste des fonctions

Utiliser l'aide

1. configuration de l'environnement

2. description de l'utilisation des principales fonctions

3. description des composants architecturaux

4. configuration des fonctions avancées

YourInterviewer : guide de dialogue à voix naturelle (interview) pour générer des articles personnalisés pour chaque média

NV Ingest : analyse de documents au format complexe, extraction de données multimodales en métadonnées et en texte

Articles connexes

Fay Digital Human Framework : intégration de modèles linguistiques et de personnages numériques en 3D pour soutenir une variété de scénarios d'application.

Fogsight - AI Animation Generation Agent, thème d'entrée pour générer une animation complète

MinerU : extraction de documents PDF et conversion au format Markdown multimodal, prise en charge de la numérisation OCR des livres électroniques

BuffGPT : une plateforme de développement low-code pour des applications d'IA générative de niveau entreprise

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles