Aprendizagem pessoal com IA
e orientação prática

TEN Agent: uma estrutura de corpo inteligente multimodal em tempo real que oferece suporte a diálogos de voz e vídeo sem latência com corpos inteligentes.

Introdução geral

O TEN Agent é uma estrutura de inteligência multimodal em tempo real de código aberto que integra a API OpenAI Realtime e o RTC para oferecer suporte a várias funções, como consulta meteorológica, pesquisa na Web, processamento visual e RAG (Retrieval Augmented Generation). O objetivo da estrutura é fornecer soluções de interação de áudio e vídeo de alto desempenho e baixa latência para cenários complexos de aplicativos de IA.

A segunda inteligência multimodal interativa em tempo real mais madura vista até agora tem um processo de comunicação de voz muito suave.


TEN Agent: estrutura de inteligências multimodais em tempo real, integrando a API em tempo real da OpenAI e o RTC, com suporte a funções de consulta meteorológica, pesquisa na Web, visão e RAG-1

Experiência on-line: https://agent.theten.ai/

 

Lista de funções

  • Interação multimodal em tempo realSuporte ao processamento e à interação em tempo real de áudio, vídeo e texto.
  • Integração da API em tempo real da OpenAIOferece recursos de diálogo de voz para voz de baixa latência.
  • Supressão de ruído RTC AIEliminação de ruído por meio de algoritmos de IA para melhorar a qualidade do áudio.
  • Consulta sobre o climaFunção de consulta meteorológica integrada para fornecer informações meteorológicas em tempo real.
  • Pesquisa na InternetSuporte ao acesso a informações por meio de pesquisas na Web.
  • processamento visualSuporte a funções de reconhecimento e processamento de imagens.
  • Funções do RAGFornecimento de respostas usando documentos locais por meio de técnicas de geração aprimoradas por recuperação.
  • Suporte a vários idiomasSuporte ao desenvolvimento estendido em várias linguagens de programação, como C++, Go, Python, etc.
  • Suporte a várias plataformasCompatível com Windows, Mac, Linux e dispositivos móveis.

 

Usando a Ajuda

Processo de instalação

  1. Preparação do ambiente::
    • Certifique-se de que o Docker e o Docker Compose estejam instalados.
    • Obtenha o Agora App ID e o App Certificate (se os certificados estiverem ativados no console do Agora).
    • Obtenha a chave de API da OpenAI, bem como as chaves de API do Deepgram ASR e do FishAudio TTS.
  2. Configuração de variáveis de ambiente::
    • No diretório raiz do projeto, use o comandocp .env.example .envpara criar o comando.envDocumentação.
    • show (um ingresso).envcom a chave de API e a configuração necessárias.
  3. Lançamento de contêineres::
    • Execute-o no diretório raiz do projetodocker compose uppara iniciar o contêiner.
    • Ou usedocker compose up -dpara iniciar o contêiner no modo desanexado.
  4. Inteligência de construção::
    • Abra uma nova janela de terminal, entre no contêiner e crie as inteligências.
    • Quando a compilação estiver concluída, execute o servidor na porta 8080:make run-server.
  5. interface de acesso::
    • Abrir em seu navegadorlocalhost:3000O agente TEN será usado pela primeira vez no futuro.
    • Abra outra guia e acesselocalhost:3001Crie, conecte e edite extensões usando o Graph Designer.

Guia de operação de funções

  1. Interação multimodal em tempo real::
    • Diálogo de voz para fala de baixa latência por meio da API OpenAI Realtime integrada.
    • Use a função de supressão de ruído AI do RTC para garantir uma qualidade de áudio clara e estável.
  2. Consulta sobre o clima::
    • Digite o nome da cidade que você deseja verificar na interface para obter informações meteorológicas em tempo real.
  3. Pesquisa na Internet::
    • Digite palavras-chave na caixa de pesquisa e o sistema pesquisará na Web para obter informações relevantes.
  4. processamento visual::
    • Faça upload de arquivos de imagem e o sistema executará automaticamente o reconhecimento e o processamento da imagem.
  5. Funções do RAG::
    • Com técnicas de geração aprimoradas por recuperação, as perguntas são inseridas e o sistema fornecerá respostas usando documentos locais.
  6. Suporte a vários idiomas::
    • Oferece suporte ao desenvolvimento estendido usando C++, Go, Python e outras linguagens de programação.
  7. Suporte a várias plataformas::
    • Compatível com Windows, Mac, Linux e dispositivos móveis, os usuários podem usar o TEN Agent sem problemas em diferentes plataformas.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " TEN Agent: uma estrutura de corpo inteligente multimodal em tempo real que oferece suporte a diálogos de voz e vídeo sem latência com corpos inteligentes.

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil