Agente TARS: una inteligencia de código abierto que utiliza la visión y los comandos para manejar ordenadores

Introducción general

El agente TARS es una inteligencia artificial multimodal de código abierto de ByteDance, con funciones básicas que ayudan a los usuarios a realizar tareas informáticas complejas mediante la comprensión visual del contenido web y la combinación de operaciones de línea de comandos y sistema de archivos. En lugar de requerir intervención manual como las herramientas tradicionales, puede automatizar tareas del navegador, editar archivos o ejecutar comandos. El sitio web ofrece descargas de aplicaciones de escritorio y documentación técnica para desarrolladores o usuarios que necesiten automatizar su flujo de trabajo. Actualmente se encuentra en fase de vista previa técnica y es compatible principalmente con macOS. El objetivo de Agent TARS es conseguir que las operaciones informáticas sean más inteligentes y eficientes. El proyecto se basa en Escritorio UI-TARS Envoltura del navegador, evaluación comparativa Manus .

Agent TARS:使用视觉和命令操作电脑的开源智能体

 

Lista de funciones

  • Automatización del navegador: Automatice las búsquedas, los clics, la cumplimentación de formularios, etc. mediante el reconocimiento visual de los elementos de las páginas web.
  • Integración de la línea de comandos: Admite la ejecución directa de comandos del sistema para ejecutar scripts o gestionar tareas en segundo plano.
  • funcionamiento del sistema de archivosCapacidad para leer, editar o generar archivos, procesar datos o guardar resultados.
  • Planificación y ejecución de misionesDesglose las tareas complejas y automatice la realización paso a paso para facilitar la investigación en profundidad o el trabajo repetitivo.
  • interacción multimodalCombine la entrada de imágenes, texto y códigos para adaptarse a distintos tipos de tareas.
  • Extensión de herramientas: Integre la búsqueda, la edición de documentos y el Protocolo de Contexto de Modelo (MCP) para mejorar la flexibilidad funcional.
  • Soporte de aplicaciones de escritorioProporcionar una interfaz para mostrar el proceso de operación, que es conveniente para los usuarios ver y ajustar en tiempo real.

 

Utilizar la ayuda

El uso del Agente TARS se divide en dos partes: instalación y funcionamiento. A continuación se detallan los pasos para empezar rápidamente.

Proceso de instalación

  1. Descargar aplicación de escritorio
    Abra el sitio web oficial https://agent-tars.com/ y haga clic en el botón "Descargar" para ir a la página de versiones de GitHub (https://github.com/bytedance/UI-TARS-desktop/). releases). Seleccione la última versión (por ejemplo AgentTARS-macOS-latest.dmg). El tamaño del archivo es de varias decenas de MB y tarda entre 1 y 5 minutos, dependiendo de la velocidad de la red.
  2. Instalación en macOS
    Una vez finalizada la descarga, haga doble clic en .dmg aparecerá una ventana de instalación. Arrastre el icono del Agente TARS a la carpeta Aplicaciones. El proceso de instalación sólo tardará unos segundos. Una vez completado, busque Agent TARS en Aplicaciones y haga clic en Abrir.
  3. Configuración de permisos
    La primera vez que inicies macOS, se te pedirá que concedas acceso a Accesibilidad. Haz clic en "Ajustes del sistema > Privacidad y seguridad > Accesibilidad", busca el Agente TARS y actívalo. Esto es para permitirle controlar la pantalla y el teclado.
  4. Modelos de configuración y API
    Tras abrir la aplicación, haz clic en el botón Configuración de la esquina inferior izquierda para acceder a la página de configuración. Es necesario configurar el proveedor del modelo (por ejemplo, Azure OpenAI) y la clave API. Pasos específicos:

    • Seleccione el proveedor en la configuración del modelo.
    • Introduzca su clave API (obtenida de su proveedor).
    • Si utiliza Azure, también tendrá que rellenar el campo apiVersionydeploymentName responder cantando endpoint.
      Tras guardar, la aplicación se conecta automáticamente al modelo.
  5. Configuración opcional de búsqueda
    Si necesita la función de búsqueda web, vaya a "Configuración de búsqueda", seleccione el proveedor de búsqueda e introduzca la clave API. Guarde cuando haya terminado.

flujo de trabajo

Una vez instalado, el Agente TARS tiene una interfaz principal sencilla con cuadros de entrada y áreas de visualización de acciones. A continuación se muestra el uso de las funciones principales.

Automatización del navegador

  • moverIntroduzca una tarea en el cuadro de entrada, como "Buscar las últimas noticias sobre IA y guardar los titulares". Pulse Intro y el Agente TARS abrirá el navegador incorporado para buscar y extraer automáticamente los titulares.
  • demuestre: La ventana derecha muestra las acciones del navegador en tiempo real, como la apertura de páginas web y el desplazamiento por ellas.
  • al finalCuando termine, guardará el título como un archivo de texto con la ruta mostrada en la parte inferior de la interfaz.

Integración de la línea de comandos

  • moverIntroduzca un comando como "Listar archivos en la carpeta actual" (en macOS es ls -l Comandos equivalentes para el dir). Pulse la tecla Intro y el Agente TARS llamará al terminal para ejecutar.
  • demuestreLa salida del comando aparece en la parte inferior de la interfaz para facilitar su visualización.
  • Uso avanzado: Puedes introducir secuencias de comandos complejas, como "comprobar la memoria del sistema y grabar", y ejecutará el comando correspondiente y guardará el resultado.

funcionamiento del sistema de archivos

  • moverEscriba "Crear un nuevo fichero test.txt y escribir 'hola'". Pulse Intro y el Agente TARS creará el fichero y escribirá su contenido.
  • demuestreEl proceso de operación se mostrará en la interfaz, y puede hacer clic en la ruta para ver el archivo una vez completado.
  • Editar archivoEscribe "abre prueba.txt y añade 'mundo'" y modificará el archivo automáticamente.

Planificación y ejecución de misiones

  • moverAgente TARS: Introduzca una tarea compleja, como "Investigar las características de la última versión de Python y organizar la documentación". El agente TARS desglosa la tarea: búsqueda de datos, extracción de información, generación de documentación.
  • demuestre: La ventana de la derecha muestra cada paso de la operación, como abrir una página web y copiar texto.
  • al final: Eventualmente genera el documento organizado y lo guarda en la ruta especificada.

colaboración hombre-máquina

  • Ajustes en tiempo realDurante la ejecución de la tarea, puede añadir comandos al cuadro de entrada, como "añadir otro párrafo de ejemplo". El agente TARS ajustará su funcionamiento de acuerdo con la nueva entrada.
  • Comparta los resultadosHaz clic en el botón "Compartir" y selecciona "HTML local" para generar un archivo de registro, o configura una URL de servidor remoto para cargarlo y compartirlo.

advertencia

  • Requisitos medioambientales: Actualmente sólo es compatible con macOS, las versiones para Windows y Linux aún no se han publicado.
  • conexión de red: Se necesita una red estable para conectar los modelos y los servicios de búsqueda.
  • ajustar los componentes durante las pruebasSi la función no funciona (por ejemplo, falla la búsqueda), compruebe si la clave API es correcta o únase a la comunidad de Discord para obtener ayuda (enlace en el sitio web oficial).

Con estos pasos, podrá utilizar fácilmente el Agente TARS para todo, desde la simple manipulación de archivos hasta complejas tareas de investigación.

 

escenario de aplicación

  1. automatización web
    Utilice el Agente TARS para navegar automáticamente por Internet y extraer noticias o información sobre productos. Por ejemplo, escriba "recopilar titulares de noticias tecnológicas recientes" y buscará y guardará los resultados para realizar estudios de mercado o cotejar información.
  2. Gestión de tareas
    Planifica proyectos complejos, como "hacer planes de viaje", busca vuelos, hoteles y los organiza en documentos. Ideal para asistentes personales o gestión de proyectos.
  3. Código Assist
    Escriba "Generate Python script to check file size" y Agent TARS escribirá y guardará el código, facilitando a los desarrolladores la generación rápida de herramientas.
  4. análisis de datos
    Maneja datos en tiempo real, como "Analizar datos bursátiles en una página web y guardar una tabla". Extrae datos y genera ficheros, aptos para análisis financieros o de mercado.

 

CONTROL DE CALIDAD

  1. ¿Es gratuito el Agente TARS?
    Sí, es un proyecto de código abierto y sigue la licencia Apache 2.0. El código y la aplicación se pueden descargar y utilizar gratuitamente desde GitHub.
  2. ¿Es compatible con Windows?
    Actualmente sólo es compatible con macOS, las versiones para Windows y Linux aún están en desarrollo, así que mantente atento a GitHub para estar al día.
  3. ¿Necesita conocimientos de programación?
    No es necesario. Funciona en lenguaje natural y es accesible para el usuario medio. Pero sabiendo programar se puede aprovechar mejor la funcionalidad de la línea de comandos.
  4. ¿Cómo puedo solucionar el problema de la función de búsqueda?
    Comprueba que la clave API de la "Configuración de búsqueda" es correcta o que la conexión de red funciona. También puedes unirte a la comunidad de Discord para dar tu opinión.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...