Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1

Nanobrowser: plug-in de inteligência múltipla para automação de tarefas em navegadores

Introdução geral

O Nanobrowser é uma extensão de código aberto do Chrome projetada para automatizar tarefas da Web por meio de um sistema multiagente alimentado por IA. É uma alternativa gratuita ao OpenAI Operator, que os usuários podem usar simplesmente fornecendo sua chave de API LLM (Large Language Model), com suporte para modelos OpenAI e Anthropic, com mais opções a serem ampliadas no futuro. Todas as operações são executadas em um navegador local, sem compartilhamento de dados na nuvem, garantindo privacidade e segurança. O Nanobrowser lida com tarefas que variam de pesquisas simples a processos complexos por meio da colaboração de três agentes: Planner, Navigator e Validator. O código do projeto está hospedado no GitHub com uma comunidade ativa onde os usuários podem participar de discussões e contribuir via Discord ou X.

Nanobrowser: plug-in de inteligência múltipla para automatizar tarefas da Web em navegadores-1


 

Lista de funções

  • sistema multiagenteO Planejador desenvolve estratégias, o Navegador realiza operações e o Validador verifica os resultados, colaborando em tarefas complexas.
  • Suporte flexível ao LLMSuporte para OpenAI e Anthropic: permite que os usuários escolham modelos diferentes para agentes diferentes.
  • operação local:: O processamento de dados é feito localmente para proteger a privacidade do usuário.
  • Automação de tarefasPesquisa na Web, preenchimento de formulários, extração de dados, etc.
  • Barra lateral interativa:: Forneça uma interface de bate-papo com atualizações de status em tempo real.
  • Diálogo com a história:: manter registros de tarefas para apoiar a visualização e o gerenciamento subsequentes.
  • código aberto e transparenteO código está aberto para revisão e aprimoramento.
  • Perguntas de acompanhamentoSuporte para questionamento contextual com base nos resultados da tarefa.

 

Usando a Ajuda

Processo de instalação

O Nanobrowser está disponível como uma extensão do Chrome que oferece duas opções de instalação: download de uma versão pré-construída diretamente ou criação a partir da fonte.

Método 1: Instalar diretamente a versão pré-construída

  1. Baixar extensões
    • entrevistas https://github.com/nanobrowser/nanobrowser/releases.
    • Encontre a versão mais recente (por exemplo, v1.0.0) na página Releases.
    • Faça o download do arquivo chamado "nanobrowser.zip".
  2. Descompacte o arquivo
    • Extraia o arquivo "nanobrowser.zip" para uma pasta local (por exemplo, a pasta "nanobrowser").
  3. Carregar no Chrome
    • Abra o Chrome e digitechrome://extensions/.
    • Ative o "Modo de desenvolvedor" no canto superior direito.
    • Clique em "Load unpacked" (Carregar descompactado) no canto superior esquerdo.
    • Selecione a pasta descompactada "nanobrowser" e clique em "Select Folder" (Selecionar pasta).
    • Após a instalação bem-sucedida, o ícone do Nanobrowser será exibido na barra de ferramentas do Chrome.
  4. Configuração da chave de API
    • Clique no ícone do Nanobrowser na barra de ferramentas para abrir a barra lateral.
    • Clique no ícone Settings (Configurações) no canto superior direito.
    • Digite sua chave de API do LLM (disponível nos sites do OpenAI ou do Anthropic).
    • Selecione modelos para o Planejador, o Navegador e o Validador (por exemplo, GPT-4o da OpenAI ou Claude da Anthropic).
    • Salve as definições para concluir a configuração.

Método 2: Construir a partir do código-fonte

  1. Preparação do ambiente
    • montagem Node.js(v22.12.0 ou posterior).
    • montagem pnpm(v9.15.1 ou posterior).
  2. armazém de clones
    • Abra um terminal e digite o seguinte comando:
      git clone https://github.com/nanobrowser/nanobrowser.git
      cd nanobrowser
      
  3. Instalação de dependências
    • Entrada:
      instalação do pnpm
      
  4. Extensões de edifícios
    • Entrada:
      compilação pnpm
      
    • Quando a compilação for concluída, a pasta "dist" conterá os arquivos de extensão.
  5. Carregar no Chrome
    • Siga a etapa 3 do "Método 1" para carregar a pasta "dist".
  6. Modo de desenvolvimento (opcional)
    • Se a depuração em tempo real for necessária, execute:
      desenvolvimento do pnpm
      

Como usar os principais recursos

1. automação de mandatos

  • fluxo de trabalho:
    • Clique no ícone do Nanobrowser na barra de ferramentas para abrir a barra lateral.
    • Digite um comando de tarefa na caixa de entrada, por exemplo, "Go to TechCrunch and extract the top 10 headlines from the last 24 hours".
    • Clique em "Execute" (Executar) para iniciar o sistema multiagente:
      • PlanejadorCriar um plano de tarefas, como abrir o TechCrunch e localizar a área de manchetes.
      • NavegadorDescrição: realizar navegação na Web e extração de dados.
      • Validador: Conformidade dos resultados da inspeção com os requisitos.
    • Os resultados são exibidos em uma barra lateral que permite copiar ou fazer perguntas de acompanhamento.
  • Cenários de uso:
    • Resumo das notíciasExtrai as informações mais recentes de um determinado site.
    • Pesquisa de compras:: Pesquise na Amazon por "alto-falante bluetooth à prova d'água, abaixo de US$ 50, com mais de 10 horas de duração da bateria".
    • Pesquisa de códigoEncontre os repositórios Python mais populares no GitHub.

2. modelo de agente de configuração

  • fluxo de trabalho:
    • Abra a barra lateral e clique em "Settings" (Configurações).
    • Digite a chave da API e selecione o modelo, por exemplo:
      • Planejador: OpenAI GPT-4o
      • Navegador. Antrópica Claude 3.5 Soneto
      • Validador: OpenAI GPT-3.5
    • Clique em "Save" (Salvar) para testar se a conexão foi bem-sucedida.
  • chamar a atenção para algo:
    • Diferentes modelos são adequados para diferentes tarefas e é recomendável tentar combinações para aumentar a eficiência.
    • Certifique-se de que a chave da API seja válida para evitar a interrupção da tarefa.

3. visualização e gerenciamento do histórico de diálogos

  • fluxo de trabalho:
    • Selecione Histórico de conversas na barra lateral.
    • Exibe uma lista de tarefas com horários, instruções e resultados.
    • Clique em um registro para visualizar os detalhes ou selecione "Retry" para executá-lo novamente.
  • habilidade prática:
    • Exporte o histórico como um arquivo JSON para facilitar o backup.
    • Examine os registros de tarefas com falha e otimize as instruções ou os modelos.

4. perguntas de acompanhamento

  • fluxo de trabalho:
    • Quando a tarefa for concluída, insira uma pergunta de acompanhamento na barra lateral, como "Quais dessas manchetes estão relacionadas à IA?". .
    • O sistema responde com base em resultados anteriores sem precisar reexecutar a tarefa completa.
  • de ponta:
    • Eficiência de interação aprimorada e adequação para análise aprofundada.

Operação da função em destaque

sistema multiagente

  • Como vivenciar:
    • Digite comandos complexos, como "Encontre os 5 modelos de IA mais populares no HuggingFace e organize-os em uma lista".
    • O Planner divide a tarefa, o Navigator extrai os dados e o Validator verifica a precisão.
    • Os resultados são retornados em um formato estruturado.
  • de ponta:
    • Correção dinâmica de erros: o planejador ajusta sua estratégia à medida que encontra obstáculos.
    • Colaboração eficiente: economize tempo processando três agentes em paralelo.

Operação local e proteção da privacidade

  • Como verificar:
    • Abra o Chrome Developer Tools (F12) e vá para a guia Rede.
    • Ao executar uma tarefa, somente as chamadas à API do LLM são vistas, sem outras solicitações externas.
  • milhagem:
    • As credenciais do usuário e os dados confidenciais não são carregados na nuvem, o que a torna segura e protegida.

Barra lateral interativa

  • Como usar:
    • Quando a barra lateral é aberta, o progresso da tarefa é exibido em tempo real (por exemplo, "Navegando", "Validando").
    • Suporte para ajuste de comandos ou interrupção de tarefas no meio do caminho.
  • especificidades:
    • A interface é intuitiva e adequada para usuários iniciantes e profissionais.

advertência

  • requisito de redeÉ necessário ter uma rede estável para chamar a API do LLM.
  • Recomendações de hardware:: Funciona melhor em equipamentos de alto desempenho.
  • Suporte à comunidade:: Participe se você tiver problemas Discórdia ou atenção X Procure ajuda.
CDN1
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Nanobrowser: plug-in de inteligência múltipla para automação de tarefas em navegadores

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil