Nanobrowser: complemento multiinteligencia para la automatización de tareas en navegadores
Últimos recursos sobre IAActualizado hace 5 meses Círculo de intercambio de inteligencia artificial 3.2K 00
Introducción general
Nanobrowser es una extensión de Chrome de código abierto diseñada para automatizar tareas web mediante un sistema multiagente impulsado por IA. Es una alternativa gratuita a OpenAI Operator, que los usuarios pueden utilizar simplemente proporcionando su clave API LLM (Large Language Model), con soporte para modelos OpenAI y Anthropic, con más opciones que se ampliarán en el futuro. Todas las operaciones se ejecutan en un navegador local, sin compartir datos en la nube, lo que garantiza la privacidad y la seguridad.Nanobrowser gestiona tareas que van desde búsquedas sencillas a procesos complejos mediante la colaboración de tres agentes: Planner, Navigator y Validator. El código del proyecto está alojado en GitHub, con una comunidad activa en la que los usuarios pueden participar en debates y contribuir a través de Discord o X.

Lista de funciones
- sistema multiagenteEl Planificador desarrolla estrategias, el Navegador realiza operaciones y el Validador verifica resultados, colaborando en tareas complejas.
- Apoyo flexible al LLM: La compatibilidad con OpenAI y Anthropic permite a los usuarios elegir diferentes modelos para diferentes agentes.
- funcionamiento local:: El tratamiento de datos se realiza localmente para proteger la privacidad del usuario.
- Automatización de tareas:: Realiza búsquedas en la web, rellena formularios, extrae datos, etc.
- Barra lateral interactiva:: Proporcionar una interfaz de chat con actualizaciones de estado en tiempo real.
- Diálogo con la Historia:: Llevar un registro de las tareas para facilitar su posterior visualización y gestión.
- código abierto y transparenteEl código está abierto a revisión y mejora.
- Preguntas de seguimiento:: Apoyo a las preguntas contextuales basadas en los resultados de las tareas.
Utilizar la ayuda
Proceso de instalación
Nanobrowser está disponible como una extensión de Chrome que ofrece dos opciones de instalación: descargar directamente una versión precompilada o compilar desde el código fuente.
Método 1: Instalación directa de la versión prediseñada
- Descargar extensiones
- entrevistas
https://github.com/nanobrowser/nanobrowser/releases
. - Busque la última versión (por ejemplo, v1.0.0) en la página de versiones.
- Descargue el archivo "nanobrowser.zip".
- entrevistas
- Descomprimir el archivo
- Extrae "nanobrowser.zip" a una carpeta local (por ejemplo, la carpeta "nanobrowser").
- Cargar en Chrome
- Abra Chrome y escriba
chrome://extensions/
. - Activa el "Modo Desarrollador" en la esquina superior derecha.
- Haga clic en "Cargar desempaquetado" en la esquina superior izquierda.
- Selecciona la carpeta "nanobrowser" descomprimida y haz clic en "Seleccionar carpeta".
- Tras la instalación, aparecerá el icono de Nanobrowser en la barra de herramientas de Chrome.
- Abra Chrome y escriba
- Configuración de la clave API
- Haz clic en el icono Nanobrowser de la barra de herramientas para abrir la barra lateral.
- Haga clic en el icono Configuración de la esquina superior derecha.
- Introduzca su clave API LLM (disponible en los sitios web de OpenAI o Anthropic).
- Seleccionar modelos para Planificador, Navegador, Validador (por ejemplo, GPT-4o de OpenAI o Claude de Anthropic).
- Guarde los ajustes para completar la configuración.
Método 2: Construir desde la fuente
- Preparar el entorno
- almacén de clones
- Abra un terminal e introduzca el siguiente comando:
git clone https://github.com/nanobrowser/nanobrowser.git cd nanobrowser
- Abra un terminal e introduzca el siguiente comando:
- Instalación de dependencias
- Entrada:
pnpm install
- Entrada:
- Ampliación de edificios
- Entrada:
pnpm build
- Una vez finalizada la compilación, la carpeta "dist" contendrá los archivos de extensión.
- Entrada:
- Cargar en Chrome
- Siga el paso 3 del "Método 1" para cargar la carpeta "dist".
- Modo de desarrollo (opcional)
- Si se requiere depuración en tiempo real, ejecute:
pnpm dev
- Si se requiere depuración en tiempo real, ejecute:
Cómo utilizar las principales funciones
1. Automatización de mandatos
- flujo de trabajo:
- Haz clic en el icono Nanobrowser de la barra de herramientas para abrir la barra lateral.
- Introduzca un comando de tarea en el cuadro de entrada, por ejemplo, "Vaya a TechCrunch y extraiga los 10 titulares principales de las últimas 24 horas".
- Haga clic en "Ejecutar" para iniciar el sistema multiagente:
- Planificador: Crear un plan de tareas, como abrir TechCrunch y localizar el área de titulares.
- Navegador:: Realización de navegación web y extracción de datos.
- Validador:: Conformidad de los resultados de la inspección con los requisitos.
- Los resultados se muestran en una barra lateral que permite copiar o hacer preguntas de seguimiento.
- Escenarios de uso:
- Resumen de noticias: Extrae la información más reciente de un sitio web concreto.
- Investigación de compras:: Busca en Amazon "altavoz bluetooth resistente al agua, por menos de 50 dólares, con más de 10 horas de batería".
- Investigación de códigos: Encuentra los repositorios de Python más populares en GitHub.
2. Modelo de agente de configuración
- flujo de trabajo:
- llamar la atención sobre algo:
- Diferentes modelos son adecuados para diferentes tareas y se recomienda probar combinaciones para mejorar la eficiencia.
- Asegúrese de que la clave API es válida para evitar la interrupción de la tarea.
3. Ver y gestionar el historial de diálogos
- flujo de trabajo:
- Seleccione Historial de conversaciones en la barra lateral.
- Muestra una lista de tareas con tiempos, instrucciones y resultados.
- Haga clic en un registro para ver los detalles, o seleccione "Reintentar" para ejecutarlo de nuevo.
- habilidad práctica:
- Exporte el historial como archivo JSON para realizar copias de seguridad fácilmente.
- Examine los registros de tareas fallidas y optimice las instrucciones o los modelos.
4. Preguntas de seguimiento
- flujo de trabajo:
- Una vez completada la tarea, introduce una pregunta de seguimiento en la barra lateral, como "¿Cuáles de estos titulares están relacionados con la IA?". .
- El sistema responde basándose en resultados anteriores sin tener que volver a ejecutar la tarea completa.
- vanguardia:
- Mejora de la eficacia de la interacción e idoneidad para el análisis en profundidad.
Función destacada Operación
sistema multiagente
- Cómo vivir:
- Introduce comandos complejos como "Encuentra los 5 modelos de IA más populares en HuggingFace y elabora una lista".
- El Planificador desglosa la tarea, el Navegador extrae los datos y el Validador verifica la exactitud.
- Los resultados se devuelven en forma estructurada.
- vanguardia:
- Corrección dinámica de errores: el planificador ajusta su estrategia a medida que encuentra obstáculos.
- Colaboración eficaz: ahorre tiempo procesando tres agentes en paralelo.
Funcionamiento local y protección de la intimidad
- Cómo verificar:
- Abra las Herramientas para desarrolladores de Chrome (F12) y cambie a la pestaña Red.
- Cuando se ejecuta una tarea, sólo se ven las llamadas a la API LLM, sin otras peticiones externas.
- kilometraje:
- Las credenciales de usuario y los datos confidenciales no se suben a la nube, por lo que es segura.
Barra lateral interactiva
- Cómo utilizarlo:
- Cuando se abre la barra lateral, se muestra el progreso de la tarea en tiempo real (por ejemplo, "Navegando", "Validando").
- Soporte para ajustar comandos o detener tareas a mitad de camino.
- especificidades:
- La interfaz es intuitiva y adecuada tanto para usuarios principiantes como profesionales.
advertencia
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...