Nanobrowser: plug-in de inteligência múltipla para automação de tarefas em navegadores

Recursos mais recentes de IAAtualizado há 7 meses Círculo de compartilhamento de IA

25.1K 00

Introdução geral

O Nanobrowser é uma extensão de código aberto do Chrome projetada para automatizar tarefas da Web por meio de um sistema multiagente alimentado por IA. É uma alternativa gratuita ao OpenAI Operator, que os usuários podem usar simplesmente fornecendo sua chave de API LLM (Large Language Model), com suporte para modelos OpenAI e Anthropic, com mais opções a serem ampliadas no futuro. Todas as operações são executadas em um navegador local, sem compartilhamento de dados na nuvem, garantindo privacidade e segurança. O Nanobrowser lida com tarefas que variam de pesquisas simples a processos complexos por meio da colaboração de três agentes: Planner, Navigator e Validator. O código do projeto está hospedado no GitHub com uma comunidade ativa onde os usuários podem participar de discussões e contribuir via Discord ou X.

Lista de funções

sistema multiagenteO Planejador desenvolve estratégias, o Navegador realiza operações e o Validador verifica os resultados, colaborando em tarefas complexas.
Suporte flexível ao LLMSuporte para OpenAI e Anthropic: permite que os usuários escolham modelos diferentes para agentes diferentes.
operação local:: O processamento de dados é feito localmente para proteger a privacidade do usuário.
Automação de tarefasPesquisa na Web, preenchimento de formulários, extração de dados, etc.
Barra lateral interativa:: Forneça uma interface de bate-papo com atualizações de status em tempo real.
Diálogo com a história:: manter registros de tarefas para apoiar a visualização e o gerenciamento subsequentes.
código aberto e transparenteO código está aberto para revisão e aprimoramento.
Perguntas de acompanhamentoSuporte para questionamento contextual com base nos resultados da tarefa.

Usando a Ajuda

Processo de instalação

O Nanobrowser está disponível como uma extensão do Chrome que oferece duas opções de instalação: download de uma versão pré-construída diretamente ou criação a partir da fonte.

Método 1: Instalar diretamente a versão pré-construída

Baixar extensões
- entrevistas https://github.com/nanobrowser/nanobrowser/releases.
- Encontre a versão mais recente (por exemplo, v1.0.0) na página Releases.
- Faça o download do arquivo chamado "nanobrowser.zip".
Descompacte o arquivo
- Extraia o arquivo "nanobrowser.zip" para uma pasta local (por exemplo, a pasta "nanobrowser").
Carregar no Chrome
- Abra o Chrome e digitechrome://extensions/.
- Ative o "Modo de desenvolvedor" no canto superior direito.
- Clique em "Load unpacked" (Carregar descompactado) no canto superior esquerdo.
- Selecione a pasta descompactada "nanobrowser" e clique em "Select Folder" (Selecionar pasta).
- Após a instalação bem-sucedida, o ícone do Nanobrowser será exibido na barra de ferramentas do Chrome.
Configuração da chave de API
- Clique no ícone do Nanobrowser na barra de ferramentas para abrir a barra lateral.
- Clique no ícone Settings (Configurações) no canto superior direito.
- Digite sua chave de API do LLM (disponível nos sites do OpenAI ou do Anthropic).
- Selecione modelos para o Planejador, o Navegador e o Validador (por exemplo, GPT-4o da OpenAI ou Claude da Anthropic).
- Salve as definições para concluir a configuração.

Método 2: Construir a partir do código-fonte

Preparação do ambiente
- montagem Node.js(v22.12.0 ou posterior).
- montagem pnpm(v9.15.1 ou posterior).

armazém de clones

Abra um terminal e digite o seguinte comando:

git clone https://github.com/nanobrowser/nanobrowser.git
cd nanobrowser

Instalação de dependências
- Entrada:
```
pnpm install
```
Extensões de edifícios
- Entrada:
```
pnpm build
```
- Quando a compilação for concluída, a pasta "dist" conterá os arquivos de extensão.
Carregar no Chrome
- Siga a etapa 3 do "Método 1" para carregar a pasta "dist".
Modo de desenvolvimento (opcional)
- Se a depuração em tempo real for necessária, execute:
```
pnpm dev
```

Como usar os principais recursos

1. automação de mandatos

fluxo de trabalho:
- Clique no ícone do Nanobrowser na barra de ferramentas para abrir a barra lateral.
- Digite um comando de tarefa na caixa de entrada, por exemplo, "Go to TechCrunch and extract the top 10 headlines from the last 24 hours".
- Clique em "Execute" (Executar) para iniciar o sistema multiagente:
  - PlanejadorCriar um plano de tarefas, como abrir o TechCrunch e localizar a área de manchetes.
  - NavegadorDescrição: realizar navegação na Web e extração de dados.
  - Validador: Conformidade dos resultados da inspeção com os requisitos.
- Os resultados são exibidos em uma barra lateral que permite copiar ou fazer perguntas de acompanhamento.
Cenários de uso:
- Resumo das notíciasExtrai as informações mais recentes de um determinado site.
- Pesquisa de compras:: Pesquise na Amazon por "alto-falante bluetooth à prova d'água, abaixo de US$ 50, com mais de 10 horas de duração da bateria".
- Pesquisa de códigoEncontre os repositórios Python mais populares no GitHub.

2. modelo de agente de configuração

fluxo de trabalho:
- Abra a barra lateral e clique em "Settings" (Configurações).
- Digite a chave da API e selecione o modelo, por exemplo:
  - Planejador: OpenAI GPT-4o
  - Navegador. Antrópica Claude 3.5 Soneto
  - Validador: OpenAI GPT-3.5
- Clique em "Save" (Salvar) para testar se a conexão foi bem-sucedida.
chamar a atenção para algo:
- Diferentes modelos são adequados para diferentes tarefas e é recomendável tentar combinações para aumentar a eficiência.
- Certifique-se de que a chave da API seja válida para evitar a interrupção da tarefa.

3. visualização e gerenciamento do histórico de diálogos

fluxo de trabalho:
- Selecione Histórico de conversas na barra lateral.
- Exibe uma lista de tarefas com horários, instruções e resultados.
- Clique em um registro para visualizar os detalhes ou selecione "Retry" para executá-lo novamente.
habilidade prática:
- Exporte o histórico como um arquivo JSON para facilitar o backup.
- Examine os registros de tarefas com falha e otimize as instruções ou os modelos.

4. perguntas de acompanhamento

fluxo de trabalho:
- Quando a tarefa for concluída, insira uma pergunta de acompanhamento na barra lateral, como "Quais dessas manchetes estão relacionadas à IA?". .
- O sistema responde com base em resultados anteriores sem precisar reexecutar a tarefa completa.
de ponta:
- Eficiência de interação aprimorada e adequação para análise aprofundada.

Operação da função em destaque

sistema multiagente

Como vivenciar:
- Digite comandos complexos, como "Encontre os 5 modelos de IA mais populares no HuggingFace e organize-os em uma lista".
- O Planner divide a tarefa, o Navigator extrai os dados e o Validator verifica a precisão.
- Os resultados são retornados em um formato estruturado.
de ponta:
- Correção dinâmica de erros: o planejador ajusta sua estratégia à medida que encontra obstáculos.
- Colaboração eficiente: economize tempo processando três agentes em paralelo.

Operação local e proteção da privacidade

Como verificar:
- Abra o Chrome Developer Tools (F12) e vá para a guia Rede.
- Ao executar uma tarefa, somente as chamadas à API do LLM são vistas, sem outras solicitações externas.
milhagem:
- As credenciais do usuário e os dados confidenciais não são carregados na nuvem, o que a torna segura e protegida.

Barra lateral interativa

Como usar:
- Quando a barra lateral é aberta, o progresso da tarefa é exibido em tempo real (por exemplo, "Navegando", "Validando").
- Suporte para ajuste de comandos ou interrupção de tarefas no meio do caminho.
especificidades:
- A interface é intuitiva e adequada para usuários iniciantes e profissionais.

advertência

requisito de redeÉ necessário ter uma rede estável para chamar a API do LLM.
Recomendações de hardware:: Funciona melhor em equipamentos de alto desempenho.
Suporte à comunidade:: Participe se você tiver problemas Discórdia ou atenção X Procure ajuda.