Introdução geral
O Xiaozhi AI Chatbot é um projeto de código aberto baseado na placa de desenvolvimento ESP32, projetado para ajudar os usuários a criar seu próprio companheiro de bate-papo com IA. O projeto foi desenvolvido pela Shrimp e é usado principalmente para fins didáticos para ajudar mais pessoas a começar a desenvolver hardware de IA e entender como aplicar o modelo de linguagem grande a dispositivos de hardware reais. O projeto oferece suporte a funções de reconhecimento de fala e diálogo em vários idiomas, incluindo mandarim, cantonês, inglês, japonês e coreano. Os usuários podem aprender a desenvolver com o ESP-IDF e experimentar as várias funções dos chatbots de IA por meio desse projeto.
Lista de funções
- Wi-Fi / ML307 Cat.1 4GSuporte a conectividade Wi-Fi e comunicações 4G.
- acordar com uma vozSuporte à função de despertar por voz off-line.
- reconhecimento multilíngueSuporte ao reconhecimento de voz em cinco idiomas: mandarim, cantonês, inglês, japonês e coreano.
- reconhecimento de vozIdentificar quem está gritando o nome da IA.
- Modelo grande TTSSuporte ao recurso de conversão de texto em fala do Volcano Engine ou do CosyVoice.
- Modelo grande LLMSuporte ao Qwen 2.5 72B ou ao modelo de linguagem grande da API beanbag.
- Funções personalizadasSinais e tons configuráveis para criar funções personalizadas.
- memória de curto prazoResumo: Resumos próprios após cada rodada de diálogo.
- tela de exibiçãoTela OLED: Suporta telas OLED ou LCD para mostrar a intensidade do sinal ou o conteúdo do diálogo.
- Suporte de hardwareSuporte a uma ampla variedade de hardware, como a placa de desenvolvimento Litronix-Realistic ESP32-S3, Loxin ESP32-S3-BOX3, M5Stack CoreS3 e muito mais.
Usando a Ajuda
Processo de instalação
- Hardware de preparaçãoVerifique se você tem o hardware necessário, como a placa de desenvolvimento ESP32, o módulo de microfone, o módulo de alto-falante e o monitor.
- Download do firmwareVisite a página do projeto no GitHub para fazer o download da versão mais recente do firmware.
- Gravação de firmwareUse a ferramenta Flash para gravar o firmware na placa de desenvolvimento do ESP32. As etapas específicas são as seguintes:
- Conecte a placa de desenvolvimento ESP32 ao computador.
- Abra a ferramenta Flash e selecione o arquivo de firmware baixado.
- Clique no botão "Burn" (Gravar) e aguarde a conclusão da gravação.
- Configuração da redeApós a conclusão da gravação, pressione o botão BOOT na placa de desenvolvimento para entrar no modo de configuração de rede e conectar-se a uma rede Wi-Fi ou 4G.
- Instalação de dependênciasInstalação das dependências de software necessárias, como o ambiente de desenvolvimento do ESP-IDF, de acordo com a documentação do projeto.
- Projetos em andamentoApós concluir as etapas acima, execute o projeto e comece a experimentar o recurso de bate-papo com IA.
Instruções de uso
- acordar com uma vozPalavras de ativação: Fale a palavra de ativação no microfone para ativar o chatbot de IA.
- diálogo de vozDiálogo de voz: Depois de acordar, você pode ter um diálogo de voz diretamente com a IA, com suporte a vários idiomas.
- Funções personalizadasConfiguração de sinais e tons de caracteres personalizados por meio de arquivos de configuração.
- Função de exibiçãoVisualização do conteúdo do diálogo e da intensidade do sinal na tela OLED ou LCD.
- reconhecimento de vozIA: a IA pode reconhecer quem está chamando seu nome e fornecer uma resposta personalizada.
- memória de curto prazoApós cada rodada de diálogo, a IA faz um resumo de si mesma para aprimorar a experiência de diálogo.
Procedimento de operação detalhado
- Chamada de despertar e diálogo::
- Certifique-se de que o dispositivo esteja conectado à rede.
- Fale uma palavra de ativação no microfone, por exemplo, "Xiaozhi", e o dispositivo entrará no modo de espera.
- Fale sua pergunta ou comando e a IA fará o reconhecimento de voz e responderá.
- Configuração de função personalizada::
- Abra o arquivo de configuração e localize a seção Role Settings (Configurações de função).
- Insira pistas personalizadas e parâmetros de tom e salve o arquivo.
- Reinicialize o dispositivo e as novas configurações de função entrarão em vigor.
- Uso da tela::
- Quando o dispositivo é ativado, o visor mostra a intensidade do sinal de rede atual.
- Durante o diálogo, o visor mostra o conteúdo do diálogo para facilitar a visualização.
- função de reconhecimento de voz::
- No arquivo de configuração, defina os parâmetros de reconhecimento de voz.
- Quando o dispositivo é ativado, ele reconhece automaticamente a impressão de voz do locutor e fornece uma resposta personalizada.
- função de memória de curto prazo::
- Após cada rodada de diálogo, a IA resumirá e aprimorará automaticamente a experiência do diálogo.
- Os parâmetros de resumo podem ser ajustados no arquivo de configuração para otimizar o efeito da memória.