Introdução geral
O Always-On AI Assistant é um projeto inovador de assistente de IA que cria um sistema de assistente de IA avançado e permanentemente on-line por meio da integração de tecnologias avançadas, como Deepseek-V3, RealtimeSTT e Typer. O projeto é especialmente otimizado para cenários de desenvolvimento de engenharia, fornecendo uma interface de interação de voz completa e uma estrutura de execução de comandos. O sistema adota um design modular e inclui uma interface básica de bate-papo de assistente e um sistema avançado de comando de sessão de assistente Typer, com suporte para reconhecimento de fala em tempo real e funções de conversão de texto em fala. Ao integrar a tecnologia de síntese de fala da ElevenLabs e os recursos de reconhecimento de fala em tempo real do RealtimeSTT, o projeto oferece aos desenvolvedores um paradigma completo de desenvolvimento de assistentes de IA, tornando mais fácil e eficiente a criação de assistentes de voz inteligentes.
Lista de funções
- Sistema de reconhecimento e resposta de fala em tempo real
- Mecanismo de diálogo inteligente baseado no Deepseek-V3
- Estrutura de execução de comandos Typer personalizável
- Suporte à operação em vários modos (padrão, execução, execução sem memória)
- Sistema de gerenciamento de memória dinâmica (Scratchpad)
- Arquitetura de assistente altamente configurável
- Suporte ao reconhecimento de fala nativo
- Integração de síntese de fala de alta qualidade da ElevenLabs
- Sistema de modelo de comando extensível
- Capacidade de sessão interativa em tempo real
Usando a Ajuda
1. configuração ambiental
1.1 Configuração básica
- Primeiro, clone o projeto localmente
- Copie o arquivo de configuração do ambiente: execute
cp .env.sample .env
- Atualize a chave da API:
- Definir DEEPSEEK_API_KEY (para acesso ao modelo de IA)
- Configuração de ELEVEN_API_KEY (para síntese de fala)
- realizar
uv sincronização
dependência de sincronização - Opcional: instale o Python 3.11 (usando o comando
uv python install 3.11
)
1.2 Requisitos do sistema
- Python 3.11 ou posterior.
- Conexão de rede estável
- Equipamento de microfone (para entrada de voz)
- dispositivo de saída de áudio (computador)
2. descrição do uso das principais funções
2.1 Interface básica do Assistant Chat
- Comando de início:
uv run python main_base_assistant.py chat
- Isso abre uma tela de diálogo básica
- É possível a interação direta por texto ou voz
- Resposta de voz usando TTS nativo
2.2 Sistema de comando de sessão do assistente do digitador
- Comando de início:
uv run python main_typer_assistant.py awaken --typer-file commands/template.py --scratchpad scratchpad.md --mode execute
- Descrição do parâmetro:
- --typer-file: especifica o local do arquivo de modelo de comando
- --scratchpad: define o arquivo de memória dinâmica do assistente
- --mode: define o modo de execução (padrão/executar/executar-sem-raspagem)
2.3 Interação com assistentes
- Um alerta claramente pronunciado para a "Ada".
- Diga instruções, por exemplo, "Ada, faça um ping no servidor e aguarde uma resposta".
- O assistente reconhece a fala em tempo real e executa os comandos adequadamente
- Os resultados da execução são registrados no arquivo scratchpad.md
3. descrição dos componentes arquitetônicos
3.1 Arquitetura do Typer Assistant
- Brain: usando o Deepseek V3 como o principal mecanismo de IA
- Manuseio de tarefas: definido por meio de prompts/typer-commands.xml
- Memória dinâmica: gerenciamento de estado usando scratchpad.txt
- Reconhecimento de fala: conversão de fala em texto em tempo real usando o RealtimeSTT
- Síntese de fala: a integração com o ElevenLabs fornece saída de fala natural
3.2 Arquitetura do Assistente de Infraestrutura
- Mecanismo principal: usando ollama:phi4
- Design simplificado: sem necessidade de dicas extras ou memória dinâmica
- Reconhecimento de fala: também usando o RealtimeSTT
- Saída de voz: usando o sistema TTS local
4. configuração avançada de recursos
- As configurações do Assistente podem ser personalizadas por meio do arquivo assistant_config.yml
- Suporte para adicionar comandos personalizados do Typer
- Os parâmetros de reconhecimento e síntese de fala podem ser ajustados
- Suporte para a extensão de novos módulos funcionais