Aprendizagem pessoal com IA
e orientação prática

Assistente de IA Deepseek "sempre ativo": criação de um sistema de interação de voz inteligente baseado no Deepseek-V3

Introdução geral

O Always-On AI Assistant é um projeto inovador de assistente de IA que cria um sistema de assistente de IA avançado e permanentemente on-line por meio da integração de tecnologias avançadas, como Deepseek-V3, RealtimeSTT e Typer. O projeto é especialmente otimizado para cenários de desenvolvimento de engenharia, fornecendo uma interface de interação de voz completa e uma estrutura de execução de comandos. O sistema adota um design modular e inclui uma interface básica de bate-papo de assistente e um sistema avançado de comando de sessão de assistente Typer, com suporte para reconhecimento de fala em tempo real e funções de conversão de texto em fala. Ao integrar a tecnologia de síntese de fala da ElevenLabs e os recursos de reconhecimento de fala em tempo real do RealtimeSTT, o projeto oferece aos desenvolvedores um paradigma completo de desenvolvimento de assistentes de IA, tornando mais fácil e eficiente a criação de assistentes de voz inteligentes.

\


 

Lista de funções

  • Sistema de reconhecimento e resposta de fala em tempo real
  • Mecanismo de diálogo inteligente baseado no Deepseek-V3
  • Estrutura de execução de comandos Typer personalizável
  • Suporte à operação em vários modos (padrão, execução, execução sem memória)
  • Sistema de gerenciamento de memória dinâmica (Scratchpad)
  • Arquitetura de assistente altamente configurável
  • Suporte ao reconhecimento de fala nativo
  • Integração de síntese de fala de alta qualidade da ElevenLabs
  • Sistema de modelo de comando extensível
  • Capacidade de sessão interativa em tempo real

 

Usando a Ajuda

1. configuração ambiental

1.1 Configuração básica

  • Primeiro, clone o projeto localmente
  • Copie o arquivo de configuração do ambiente: execute cp .env.sample .env
  • Atualize a chave da API:
    • Definir DEEPSEEK_API_KEY (para acesso ao modelo de IA)
    • Configuração de ELEVEN_API_KEY (para síntese de fala)
  • realizar uv sincronização dependência de sincronização
  • Opcional: instale o Python 3.11 (usando o comando uv python install 3.11)

1.2 Requisitos do sistema

  • Python 3.11 ou posterior.
  • Conexão de rede estável
  • Equipamento de microfone (para entrada de voz)
  • dispositivo de saída de áudio (computador)

2. descrição do uso das principais funções

2.1 Interface básica do Assistant Chat

  • Comando de início:uv run python main_base_assistant.py chat
  • Isso abre uma tela de diálogo básica
  • É possível a interação direta por texto ou voz
  • Resposta de voz usando TTS nativo

2.2 Sistema de comando de sessão do assistente do digitador

  • Comando de início:
uv run python main_typer_assistant.py awaken --typer-file commands/template.py --scratchpad scratchpad.md --mode execute
  • Descrição do parâmetro:
    • --typer-file: especifica o local do arquivo de modelo de comando
    • --scratchpad: define o arquivo de memória dinâmica do assistente
    • --mode: define o modo de execução (padrão/executar/executar-sem-raspagem)

2.3 Interação com assistentes

  • Um alerta claramente pronunciado para a "Ada".
  • Diga instruções, por exemplo, "Ada, faça um ping no servidor e aguarde uma resposta".
  • O assistente reconhece a fala em tempo real e executa os comandos adequadamente
  • Os resultados da execução são registrados no arquivo scratchpad.md

3. descrição dos componentes arquitetônicos

3.1 Arquitetura do Typer Assistant

  • Brain: usando o Deepseek V3 como o principal mecanismo de IA
  • Manuseio de tarefas: definido por meio de prompts/typer-commands.xml
  • Memória dinâmica: gerenciamento de estado usando scratchpad.txt
  • Reconhecimento de fala: conversão de fala em texto em tempo real usando o RealtimeSTT
  • Síntese de fala: a integração com o ElevenLabs fornece saída de fala natural

3.2 Arquitetura do Assistente de Infraestrutura

  • Mecanismo principal: usando ollama:phi4
  • Design simplificado: sem necessidade de dicas extras ou memória dinâmica
  • Reconhecimento de fala: também usando o RealtimeSTT
  • Saída de voz: usando o sistema TTS local

4. configuração avançada de recursos

  • As configurações do Assistente podem ser personalizadas por meio do arquivo assistant_config.yml
  • Suporte para adicionar comandos personalizados do Typer
  • Os parâmetros de reconhecimento e síntese de fala podem ser ajustados
  • Suporte para a extensão de novos módulos funcionais
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Assistente de IA Deepseek "sempre ativo": criação de um sistema de interação de voz inteligente baseado no Deepseek-V3

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil