UI-TARS Desktop: aplicación de escritorio de Intelligentsia para controlar ordenadores mediante lenguaje natural
Últimos recursos sobre IAPublicado hace 7 meses Círculo de intercambio de inteligencia artificial 2.3K 00
Introducción general
UI-TARS Desktop es una aplicación de agente de interfaz gráfica basada en UI-TARS (Visual Language Model) desarrollada por ByteDance. La aplicación permite a los usuarios controlar ordenadores a través del lenguaje natural para una interacción persona-ordenador más intuitiva y eficiente.UI-TARS Desktop soporta el funcionamiento multiplataforma, es compatible con los sistemas Windows y macOS, y ofrece funciones de retroalimentación y visualización de estado en tiempo real. Los usuarios pueden realizar operaciones como capturas de pantalla, reconocimiento visual y control preciso del ratón y el teclado mediante sencillos comandos de voz, lo que mejora enormemente la comodidad y la inteligencia de las operaciones informáticas.

Lista de funciones
- Control mediante lenguaje natural: control de operaciones informáticas mediante comandos de voz
- Captura de pantalla y reconocimiento visual: admite funciones de captura de pantalla y reconocimiento de imágenes.
- Control preciso del ratón y el teclado: permite manejar el ratón y el teclado con gran precisión.
- Compatibilidad multiplataforma: compatible con Windows y macOS.
- Información en tiempo real y visualización del estado: proporciona información en tiempo real y actualizaciones del estado de las operaciones.
Utilizar la ayuda
Proceso de instalación
MacOS
- Descargue la última versión de la aplicación UI-TARS Desktop.
- Arrastre la aplicación UI-TARS a la carpeta Aplicaciones.
- Activa los permisos UI-TARS en la configuración del sistema de macOS:
- Configuración del sistema -> Privacidad y seguridad -> Accesibilidad
- Ajustes del sistema -> Privacidad y seguridad -> Grabación de pantalla
- Abrir la aplicación UI-TARS, que puede utilizarse en el terminal si la aplicación está dañada.
sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app
La solución.
Windows (ordenador)
- Descargue la última versión de la aplicación UI-TARS Desktop.
- Ejecute la aplicación y siga las instrucciones para completar la instalación.
Normas de uso
- Tras abrir la aplicación UI-TARS, los usuarios pueden ver la interfaz principal.
- En la interfaz principal, los usuarios pueden realizar varias operaciones mediante comandos de voz, como obtener información meteorológica y enviar tweets.
- La aplicación es compatible con los modelos de lenguaje visual (VLM) desplegados por HuggingFace (en la nube) y Ollama (localmente), y se recomienda utilizar el punto final de inferencia de HuggingFace para un despliegue rápido.
- Los usuarios pueden consultar la guía de despliegue de modelos GUI proporcionada para el despliegue de modelos.
Funciones principales
control del lenguaje natural
- En la interfaz principal, toca el icono del micrófono para iniciar la entrada de voz.
- Di órdenes, como "Abre tu navegador y busca el tiempo".
- La aplicación realizará la operación correspondiente según la instrucción y mostrará el resultado en la interfaz.
Capturas de pantalla y reconocimiento visual
- En la interfaz principal, seleccione la función "Captura de pantalla".
- Utilice el ratón para seleccionar el área de la que desea hacer una captura de pantalla.
- La aplicación reconocerá automáticamente el contenido de la captura de pantalla y mostrará el resultado.
Control preciso del ratón y el teclado
- En la interfaz principal, selecciona la función "Control del ratón" o "Control del teclado".
- Utilice comandos de voz o introduzca manualmente comandos para controlar el movimiento del ratón y la introducción de datos en el teclado.
- La aplicación realizará las acciones adecuadas según las instrucciones y proporcionará información en tiempo real.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Puestos relacionados
Sin comentarios...