Introdução geral
O TEN Agent é uma estrutura de inteligência multimodal em tempo real de código aberto que integra a API OpenAI Realtime e o RTC para oferecer suporte a várias funções, como consulta meteorológica, pesquisa na Web, processamento visual e RAG (Retrieval Augmented Generation). O objetivo da estrutura é fornecer soluções de interação de áudio e vídeo de alto desempenho e baixa latência para cenários complexos de aplicativos de IA.
A segunda inteligência multimodal interativa em tempo real mais madura vista até agora tem um processo de comunicação de voz muito suave.
Lista de funções
- Interação multimodal em tempo realSuporte ao processamento e à interação em tempo real de áudio, vídeo e texto.
- Integração da API em tempo real da OpenAIOferece recursos de diálogo de voz para voz de baixa latência.
- Supressão de ruído RTC AIEliminação de ruído por meio de algoritmos de IA para melhorar a qualidade do áudio.
- Consulta sobre o climaFunção de consulta meteorológica integrada para fornecer informações meteorológicas em tempo real.
- Pesquisa na InternetSuporte ao acesso a informações por meio de pesquisas na Web.
- processamento visualSuporte a funções de reconhecimento e processamento de imagens.
- Funções do RAGFornecimento de respostas usando documentos locais por meio de técnicas de geração aprimoradas por recuperação.
- Suporte a vários idiomasSuporte ao desenvolvimento estendido em várias linguagens de programação, como C++, Go, Python, etc.
- Suporte a várias plataformasCompatível com Windows, Mac, Linux e dispositivos móveis.
Usando a Ajuda
Processo de instalação
- Preparação do ambiente::
- Certifique-se de que o Docker e o Docker Compose estejam instalados.
- Obtenha o Agora App ID e o App Certificate (se os certificados estiverem ativados no console do Agora).
- Obtenha a chave de API da OpenAI, bem como as chaves de API do Deepgram ASR e do FishAudio TTS.
- Configuração de variáveis de ambiente::
- No diretório raiz do projeto, use o comando
cp .env.example .env
para criar o comando.env
Documentação. - show (um ingresso)
.env
com a chave de API e a configuração necessárias.
- No diretório raiz do projeto, use o comando
- Lançamento de contêineres::
- Execute-o no diretório raiz do projeto
docker compose up
para iniciar o contêiner. - Ou use
docker compose up -d
para iniciar o contêiner no modo desanexado.
- Execute-o no diretório raiz do projeto
- Inteligência de construção::
- Abra uma nova janela de terminal, entre no contêiner e crie as inteligências.
- Quando a compilação estiver concluída, execute o servidor na porta 8080:
make run-server
.
- interface de acesso::
- Abrir em seu navegador
localhost:3000
O agente TEN será usado pela primeira vez no futuro. - Abra outra guia e acesse
localhost:3001
Crie, conecte e edite extensões usando o Graph Designer.
- Abrir em seu navegador
Guia de operação de funções
- Interação multimodal em tempo real::
- Diálogo de voz para fala de baixa latência por meio da API OpenAI Realtime integrada.
- Use a função de supressão de ruído AI do RTC para garantir uma qualidade de áudio clara e estável.
- Consulta sobre o clima::
- Digite o nome da cidade que você deseja verificar na interface para obter informações meteorológicas em tempo real.
- Pesquisa na Internet::
- Digite palavras-chave na caixa de pesquisa e o sistema pesquisará na Web para obter informações relevantes.
- processamento visual::
- Faça upload de arquivos de imagem e o sistema executará automaticamente o reconhecimento e o processamento da imagem.
- Funções do RAG::
- Com técnicas de geração aprimoradas por recuperação, as perguntas são inseridas e o sistema fornecerá respostas usando documentos locais.
- Suporte a vários idiomas::
- Oferece suporte ao desenvolvimento estendido usando C++, Go, Python e outras linguagens de programação.
- Suporte a várias plataformas::
- Compatível com Windows, Mac, Linux e dispositivos móveis, os usuários podem usar o TEN Agent sem problemas em diferentes plataformas.