Asistente Deepseek AI "Always-On": creación de un sistema inteligente de interacción por voz basado en Deepseek-V3

Introducción general

Always-On AI Assistant es un innovador proyecto de asistente de IA que crea un sistema de asistente de IA potente y permanentemente en línea mediante la integración de tecnologías avanzadas como Deepseek-V3, RealtimeSTT y Typer. El proyecto está especialmente optimizado para escenarios de desarrollo de ingeniería, proporcionando una completa interfaz de interacción por voz y un marco de ejecución de comandos. El sistema adopta un diseño modular e incluye una interfaz de chat de asistente básica y un sistema avanzado de comandos de sesión de asistente Typer, compatible con funciones de reconocimiento de voz y conversión de texto a voz en tiempo real. Al integrar la tecnología de síntesis de voz de ElevenLabs y las capacidades de reconocimiento de voz en tiempo real de RealtimeSTT, el proyecto proporciona a los desarrolladores un paradigma completo de desarrollo de asistentes de IA, lo que facilita y agiliza la creación de asistentes de voz inteligentes.

 

Lista de funciones

  • Sistema de reconocimiento y respuesta de voz en tiempo real
  • Motor de diálogo inteligente basado en Deepseek-V3
  • Marco personalizable de ejecución de comandos Typer
  • Funcionamiento multimodo (por defecto, ejecución, ejecución sin memoria)
  • Sistema de gestión dinámica de la memoria (Bloc de notas)
  • Arquitectura de asistente altamente configurable
  • Reconocimiento de voz nativo
  • Integración de síntesis de voz de alta calidad de ElevenLabs
  • Sistema extensible de plantillas de comandos
  • Sesión interactiva en tiempo real

 

Utilizar la ayuda

1. Configuración medioambiental

1.1 Configuración básica

  • Primero clone el proyecto localmente
  • Copiar el fichero de configuración del entorno: ejecutar cp .env.sample .env
  • Actualice la clave API:
    • Establecer DEEPSEEK_API_KEY (para el acceso al modelo AI)
    • Ajuste ELEVEN_API_KEY (para síntesis de voz)
  • llevar a cabo uv sync dependencia de sincronización
  • Opcional: Instale Python 3.11 (utilizando el comando uv python install 3.11)

1.2 Requisitos del sistema

  • Python 3.11 o posterior.
  • Conexión de red estable
  • Equipo de micrófono (para entrada de voz)
  • dispositivo de salida de audio (ordenador)

2. Descripción del uso de las principales funciones

2.1 Interfaz básica del asistente de chat

  • Comando de inicio:uv run python main_base_assistant.py chat
  • Se abre una pantalla de diálogo básica
  • Posibilidad de interacción directa por texto o voz
  • Respuesta vocal mediante TTS nativo

2.2 Sistema de comandos de sesión del asistente Typer

  • Comando de inicio:
uv run python main_typer_assistant.py awaken --typer-file commands/template.py --scratchpad scratchpad.md --mode execute
  • Descripción de los parámetros:
    • --typer-file: especifica la ubicación del archivo de plantilla de comandos.
    • --scratchpad: establece el archivo de memoria dinámica del asistente
    • --mode: establece el modo de ejecución (por defecto/ejecutar/ejecutar-sin-rascar)

2.3 Interacción con los asistentes

  • Llamada de atención claramente pronunciada "Ada".
  • Di instrucciones, por ejemplo: "Ada, haz ping al servidor espera respuesta".
  • El asistente reconoce el habla en tiempo real y ejecuta las órdenes en consecuencia.
  • Los resultados de la ejecución se registran en el archivo scratchpad.md

3. Descripción de los componentes arquitectónicos

3.1 Arquitectura de Typer Assistant

  • Cerebro: uso de Deepseek V3 como motor principal de IA
  • Gestión de tareas: se define mediante prompts/typer-commands.xml
  • Memoria dinámica: gestión de estados mediante scratchpad.txt
  • Reconocimiento del habla: voz a texto en tiempo real con RealtimeSTT
  • Síntesis de voz: la integración con ElevenLabs proporciona una salida de voz natural

3.2 Arquitectura del asistente de infraestructura

  • Motor principal: uso de ollama:phi4
  • Diseño simplificado: no requiere pistas adicionales ni memoria dinámica.
  • Reconocimiento de voz: también con RealtimeSTT
  • Salida de voz: mediante el sistema TTS local

4. Configuración de funciones avanzadas

  • Las configuraciones del asistente pueden personalizarse mediante el archivo assistant_config.yml
  • Soporte para añadir comandos Typer personalizados
  • Se pueden ajustar los parámetros de reconocimiento y síntesis de voz
  • Soporte para ampliar nuevos módulos funcionales
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...