UI-TARS Desktop: aplicación de escritorio de Intelligentsia para controlar ordenadores mediante lenguaje natural

Introducción general

UI-TARS Desktop es una aplicación de agente de interfaz gráfica basada en UI-TARS (Visual Language Model) desarrollada por ByteDance. La aplicación permite a los usuarios controlar ordenadores a través del lenguaje natural para una interacción persona-ordenador más intuitiva y eficiente.UI-TARS Desktop soporta el funcionamiento multiplataforma, es compatible con los sistemas Windows y macOS, y ofrece funciones de retroalimentación y visualización de estado en tiempo real. Los usuarios pueden realizar operaciones como capturas de pantalla, reconocimiento visual y control preciso del ratón y el teclado mediante sencillos comandos de voz, lo que mejora enormemente la comodidad y la inteligencia de las operaciones informáticas.

UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用

 

Lista de funciones

  • Control mediante lenguaje natural: control de operaciones informáticas mediante comandos de voz
  • Captura de pantalla y reconocimiento visual: admite funciones de captura de pantalla y reconocimiento de imágenes.
  • Control preciso del ratón y el teclado: permite manejar el ratón y el teclado con gran precisión.
  • Compatibilidad multiplataforma: compatible con Windows y macOS.
  • Información en tiempo real y visualización del estado: proporciona información en tiempo real y actualizaciones del estado de las operaciones.

 

Utilizar la ayuda

Proceso de instalación

MacOS

  1. Descargue la última versión de la aplicación UI-TARS Desktop.
  2. Arrastre la aplicación UI-TARS a la carpeta Aplicaciones.
  3. Activa los permisos UI-TARS en la configuración del sistema de macOS:
    • Configuración del sistema -> Privacidad y seguridad -> Accesibilidad
    • Ajustes del sistema -> Privacidad y seguridad -> Grabación de pantalla
  4. Abrir la aplicación UI-TARS, que puede utilizarse en el terminal si la aplicación está dañada. sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app La solución.

Windows (ordenador)

  1. Descargue la última versión de la aplicación UI-TARS Desktop.
  2. Ejecute la aplicación y siga las instrucciones para completar la instalación.

Normas de uso

  1. Tras abrir la aplicación UI-TARS, los usuarios pueden ver la interfaz principal.
  2. En la interfaz principal, los usuarios pueden realizar varias operaciones mediante comandos de voz, como obtener información meteorológica y enviar tweets.
  3. La aplicación es compatible con los modelos de lenguaje visual (VLM) desplegados por HuggingFace (en la nube) y Ollama (localmente), y se recomienda utilizar el punto final de inferencia de HuggingFace para un despliegue rápido.
  4. Los usuarios pueden consultar la guía de despliegue de modelos GUI proporcionada para el despliegue de modelos.

Funciones principales

control del lenguaje natural

  1. En la interfaz principal, toca el icono del micrófono para iniciar la entrada de voz.
  2. Di órdenes, como "Abre tu navegador y busca el tiempo".
  3. La aplicación realizará la operación correspondiente según la instrucción y mostrará el resultado en la interfaz.

Capturas de pantalla y reconocimiento visual

  1. En la interfaz principal, seleccione la función "Captura de pantalla".
  2. Utilice el ratón para seleccionar el área de la que desea hacer una captura de pantalla.
  3. La aplicación reconocerá automáticamente el contenido de la captura de pantalla y mostrará el resultado.

Control preciso del ratón y el teclado

  1. En la interfaz principal, selecciona la función "Control del ratón" o "Control del teclado".
  2. Utilice comandos de voz o introduzca manualmente comandos para controlar el movimiento del ratón y la introducción de datos en el teclado.
  3. La aplicación realizará las acciones adecuadas según las instrucciones y proporcionará información en tiempo real.
© declaración de copyright
AiPPT

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...