Introdução geral
O Nanobrowser é uma extensão de código aberto do Chrome projetada para automatizar tarefas da Web por meio de um sistema multiagente alimentado por IA. É uma alternativa gratuita ao OpenAI Operator, que os usuários podem usar simplesmente fornecendo sua chave de API LLM (Large Language Model), com suporte para modelos OpenAI e Anthropic, com mais opções a serem ampliadas no futuro. Todas as operações são executadas em um navegador local, sem compartilhamento de dados na nuvem, garantindo privacidade e segurança. O Nanobrowser lida com tarefas que variam de pesquisas simples a processos complexos por meio da colaboração de três agentes: Planner, Navigator e Validator. O código do projeto está hospedado no GitHub com uma comunidade ativa onde os usuários podem participar de discussões e contribuir via Discord ou X.
Lista de funções
- sistema multiagenteO Planejador desenvolve estratégias, o Navegador realiza operações e o Validador verifica os resultados, colaborando em tarefas complexas.
- Suporte flexível ao LLMSuporte para OpenAI e Anthropic: permite que os usuários escolham modelos diferentes para agentes diferentes.
- operação local:: O processamento de dados é feito localmente para proteger a privacidade do usuário.
- Automação de tarefasPesquisa na Web, preenchimento de formulários, extração de dados, etc.
- Barra lateral interativa:: Forneça uma interface de bate-papo com atualizações de status em tempo real.
- Diálogo com a história:: manter registros de tarefas para apoiar a visualização e o gerenciamento subsequentes.
- código aberto e transparenteO código está aberto para revisão e aprimoramento.
- Perguntas de acompanhamentoSuporte para questionamento contextual com base nos resultados da tarefa.
Usando a Ajuda
Processo de instalação
O Nanobrowser está disponível como uma extensão do Chrome que oferece duas opções de instalação: download de uma versão pré-construída diretamente ou criação a partir da fonte.
Método 1: Instalar diretamente a versão pré-construída
- Baixar extensões
- entrevistas
https://github.com/nanobrowser/nanobrowser/releases
. - Encontre a versão mais recente (por exemplo, v1.0.0) na página Releases.
- Faça o download do arquivo chamado "nanobrowser.zip".
- entrevistas
- Descompacte o arquivo
- Extraia o arquivo "nanobrowser.zip" para uma pasta local (por exemplo, a pasta "nanobrowser").
- Carregar no Chrome
- Abra o Chrome e digite
chrome://extensions/
. - Ative o "Modo de desenvolvedor" no canto superior direito.
- Clique em "Load unpacked" (Carregar descompactado) no canto superior esquerdo.
- Selecione a pasta descompactada "nanobrowser" e clique em "Select Folder" (Selecionar pasta).
- Após a instalação bem-sucedida, o ícone do Nanobrowser será exibido na barra de ferramentas do Chrome.
- Abra o Chrome e digite
- Configuração da chave de API
- Clique no ícone do Nanobrowser na barra de ferramentas para abrir a barra lateral.
- Clique no ícone Settings (Configurações) no canto superior direito.
- Digite sua chave de API do LLM (disponível nos sites do OpenAI ou do Anthropic).
- Selecione modelos para o Planejador, o Navegador e o Validador (por exemplo, GPT-4o da OpenAI ou Claude da Anthropic).
- Salve as definições para concluir a configuração.
Método 2: Construir a partir do código-fonte
- Preparação do ambiente
- armazém de clones
- Abra um terminal e digite o seguinte comando:
git clone https://github.com/nanobrowser/nanobrowser.git cd nanobrowser
- Abra um terminal e digite o seguinte comando:
- Instalação de dependências
- Entrada:
instalação do pnpm
- Entrada:
- Extensões de edifícios
- Entrada:
compilação pnpm
- Quando a compilação for concluída, a pasta "dist" conterá os arquivos de extensão.
- Entrada:
- Carregar no Chrome
- Siga a etapa 3 do "Método 1" para carregar a pasta "dist".
- Modo de desenvolvimento (opcional)
- Se a depuração em tempo real for necessária, execute:
desenvolvimento do pnpm
- Se a depuração em tempo real for necessária, execute:
Como usar os principais recursos
1. automação de mandatos
- fluxo de trabalho:
- Clique no ícone do Nanobrowser na barra de ferramentas para abrir a barra lateral.
- Digite um comando de tarefa na caixa de entrada, por exemplo, "Go to TechCrunch and extract the top 10 headlines from the last 24 hours".
- Clique em "Execute" (Executar) para iniciar o sistema multiagente:
- PlanejadorCriar um plano de tarefas, como abrir o TechCrunch e localizar a área de manchetes.
- NavegadorDescrição: realizar navegação na Web e extração de dados.
- Validador: Conformidade dos resultados da inspeção com os requisitos.
- Os resultados são exibidos em uma barra lateral que permite copiar ou fazer perguntas de acompanhamento.
- Cenários de uso:
- Resumo das notíciasExtrai as informações mais recentes de um determinado site.
- Pesquisa de compras:: Pesquise na Amazon por "alto-falante bluetooth à prova d'água, abaixo de US$ 50, com mais de 10 horas de duração da bateria".
- Pesquisa de códigoEncontre os repositórios Python mais populares no GitHub.
2. modelo de agente de configuração
- fluxo de trabalho:
- chamar a atenção para algo:
- Diferentes modelos são adequados para diferentes tarefas e é recomendável tentar combinações para aumentar a eficiência.
- Certifique-se de que a chave da API seja válida para evitar a interrupção da tarefa.
3. visualização e gerenciamento do histórico de diálogos
- fluxo de trabalho:
- Selecione Histórico de conversas na barra lateral.
- Exibe uma lista de tarefas com horários, instruções e resultados.
- Clique em um registro para visualizar os detalhes ou selecione "Retry" para executá-lo novamente.
- habilidade prática:
- Exporte o histórico como um arquivo JSON para facilitar o backup.
- Examine os registros de tarefas com falha e otimize as instruções ou os modelos.
4. perguntas de acompanhamento
- fluxo de trabalho:
- Quando a tarefa for concluída, insira uma pergunta de acompanhamento na barra lateral, como "Quais dessas manchetes estão relacionadas à IA?". .
- O sistema responde com base em resultados anteriores sem precisar reexecutar a tarefa completa.
- de ponta:
- Eficiência de interação aprimorada e adequação para análise aprofundada.
Operação da função em destaque
sistema multiagente
- Como vivenciar:
- Digite comandos complexos, como "Encontre os 5 modelos de IA mais populares no HuggingFace e organize-os em uma lista".
- O Planner divide a tarefa, o Navigator extrai os dados e o Validator verifica a precisão.
- Os resultados são retornados em um formato estruturado.
- de ponta:
- Correção dinâmica de erros: o planejador ajusta sua estratégia à medida que encontra obstáculos.
- Colaboração eficiente: economize tempo processando três agentes em paralelo.
Operação local e proteção da privacidade
- Como verificar:
- Abra o Chrome Developer Tools (F12) e vá para a guia Rede.
- Ao executar uma tarefa, somente as chamadas à API do LLM são vistas, sem outras solicitações externas.
- milhagem:
- As credenciais do usuário e os dados confidenciais não são carregados na nuvem, o que a torna segura e protegida.
Barra lateral interativa
- Como usar:
- Quando a barra lateral é aberta, o progresso da tarefa é exibido em tempo real (por exemplo, "Navegando", "Validando").
- Suporte para ajuste de comandos ou interrupção de tarefas no meio do caminho.
- especificidades:
- A interface é intuitiva e adequada para usuários iniciantes e profissionais.