AutoGLM-Web Plugin: Más que el uso del ordenador, ¡ha llegado el momento del "uso del teléfono" de la IA!

AutoGLM-Web插件:不止 Computer Use,AI 的「Phone Use」时刻也来了

 

En comparación con los ordenadores, los teléfonos móviles, que "no se pueden soltar", nos acompañan durante más tiempo y están más cerca de nuestras vidas.

Si "Uso del ordenador" abre un nuevo paradigma de interacción entre el ser humano y el ordenador, "Uso del teléfono" lo lleva un paso más allá, desbloqueando más posibilidades de aplicación y permitiendo que la IA beneficie realmente a todos.

GLM-PC (Smart Spectrum Bull) se lanza oficialmente para descarga interna, la IA que realmente puede controlar el ordenador

 

Hoy, basándonos en los esfuerzos y descubrimientos del equipo técnico de GLM en modelización lingüística, modelización multimodal y uso de herramientas, lanzamos el primer cuerpo inteligente (Agente) de GLM, AutoGLM, que puede simular el manejo humano de un teléfono móvil y, a su vez, ayudarle con sólo recibir órdenes sencillas de texto/voz:

Me gusta y escribe comentarios en el círculo de amigos de tu jefe" en WeChat ......
En Taobao "compre un determinado producto de pedido histórico" ......
Reserve hoteles en Ctrip ......
Comprar billetes de tren en 12306 ......
Pide comida para llevar en Meituan ......

En teoría, con un profundo conocimiento de las interfaces gráficas de usuario, AutoGLM puede hacer cualquier cosa que un humano pueda hacer en un dispositivo electrónico visual (ordenador, teléfono móvil, tableta ......).

AutoGLM-Web插件:不止 Computer Use,AI 的「Phone Use」时刻也来了

El momento "uso del teléfono" de la IA nos ha hecho dar otro pequeño paso adelante en el camino hacia la inteligencia artificial generalizada (IAG).

 

No se limita a simples escenarios de tareas o llamadas a la API, y no requiere que los usuarios construyan manualmente flujos de trabajo complejos y tediosos, la lógica de funcionamiento es similar a la de los humanos, y realmente ayuda a los humanos en la vida diaria y el trabajo.
Dirección del proyecto: https://xiao9905.github.io/AutoGLM

Esta vez, seguimos sin publicar "futuros", así que puedes pasar:
Chrome o Edge para experimentar AutoGLM-Web instalando el plugin "Wisdom Spectrum", un asistente de navegador que simula la visita de un usuario a una página web, hace clic en una página web y realiza automáticamente búsquedas avanzadas, resúmenes y generación de contenidos en un sitio web basándose en las órdenes del usuario en un gran modelo.
Por lo que respecta a los teléfonos móviles, el primer lote está abierto a algunos usuarios de Qingyin (por el momento solo se admite el sistema Android), y son bienvenidos a enviar solicitudes para pruebas internas. Cabe mencionar que también mantenemos una profunda cooperación con fabricantes de teléfonos móviles como Honor basados en AutoGLM.

 

Tecnología AutoGLM

AutoGLM se basa en la "Interfaz intermedia desacoplada para inteligencias básicas" y el "Marco de aprendizaje por refuerzo de cursos en línea autoevolutivos" de desarrollo propio de Smart Spectrum, que supera los retos de la investigación y la aplicación inteligentes, como el antagonismo de capacidades, la escasez de tareas y datos de entrenamiento, la escasez de señales de retroalimentación y la deriva de las distribuciones de estrategias en la planificación de tareas y la ejecución de acciones de inteligencias de modelos grandes, junto con la estrategia de aprendizaje adaptativo, y es capaz de mejorar continuamente durante el proceso de iteración, mejorar de forma continua y estable su rendimiento. Al igual que una persona, en el proceso de crecimiento, constantemente adquiriendo nuevas habilidades.

AutoGLM aborda dos retos clave cuando se utilizan modelos de gran tamaño como inteligencias:

Reto 1: "ejecución de acciones" insuficientemente precisa

Uno de los principales retos a la hora de entrenar grandes modelos de inteligencia reside en cómo hacer que el modelo aprenda a manipular con precisión los elementos que aparecen en la pantalla. El entrenamiento de extremo a extremo para entrenar conjuntamente las capacidades de "ejecución de acciones" y "planificación de tareas" se ve limitado por el elevado coste de adquisición de datos de trayectorias y la grave escasez de datos totales, lo que da lugar a un entrenamiento inadecuado de las capacidades de ejecución de acciones que requieren una gran precisión.
Para resolver este problema, AutoGLM introduce el diseño de "interfaz intermedia desacoplada de inteligencia básica", desacoplando las dos fases de "planificación de tareas" y "ejecución de acciones" mediante una interfaz intermedia de lenguaje natural, con lo que se consigue una gran mejora de la capacidad de inteligencia. Por ejemplo, al pedir comida para llevar en un teléfono móvil y pulsar el botón "enviar pedido", la comparación entre el esquema tradicional y el de la "interfaz intermedia" es la siguiente:

AutoGLM-Web插件:不止 Computer Use,AI 的「Phone Use」时刻也来了

Reto 2: Falta de flexibilidad en la "planificación de la misión"

Otro reto importante es que las inteligencias GUI disponen de datos de trayectorias de entrenamiento extremadamente limitados y costosos. Además, las inteligencias deben tener flexibilidad para planificar y corregir sobre la marcha cuando se enfrentan a tareas complejas y entornos reales. Esto no puede conseguirse fácilmente con los métodos tradicionales de entrenamiento de grandes modelos, como el aprendizaje por imitación y el ajuste fino supervisado (SFT). Con este fin, hemos desarrollado un "Marco Autoevolutivo de Aprendizaje por Refuerzo de Cursos Online" para aprender y mejorar las capacidades de grandes modelos de inteligencia desde cero en entornos online reales, tanto Web como Telefónicos, utilizando navegadores Web como entornos experimentales. Al introducir una estrategia de aprendizaje autoevolutivo, el modelo se examina, estimula y mejora continuamente a sí mismo. Mediante el método de aprendizaje por refuerzo del curso, el marco ajusta dinámicamente la dificultad de la tarea de aprendizaje en función del nivel de habilidad de la inteligencia en las rondas de iteración actuales, con el fin de maximizar el potencial del modelo. Y mediante la actualización de la política de control de dispersión KL y la reproducción de la experiencia de confianza del cuerpo inteligente, mitigamos y evitamos el problema de que el modelo olvide las tareas de aprendizaje anteriores durante el entrenamiento iterativo. La versión de código abierto de GLM-4-9B entrenada según este método puede mejorar más de 160% con respecto a GPT-4o en la prueba de evaluación WebArena-Lite, alcanzando una tasa global de éxito en las tareas de 43%.
AutoGLM consigue mejoras significativas de rendimiento tanto en el uso del teléfono como en el uso del navegador web mediante la aplicación combinada de la estrategia propia de Wiseplan de "desacoplamiento de la interfaz intermedia de las inteligencias básicas" y el "marco autoevolutivo de aprendizaje de refuerzo de cursos en línea". Por ejemplo, AutoGLM supera significativamente a GPT-4o y Claude-3.5-Sonnet en los benchmarks de AndroidLab. AutoGLM-Web插件:不止 Computer Use,AI 的「Phone Use」时刻也来了 En la prueba de referencia WebArena-Lite, AutoGLM consigue una mejora de rendimiento de aproximadamente 200% respecto a GPT-4o, lo que acorta significativamente la distancia entre la tasa de éxito de las inteligencias humana y de grandes modelos en la manipulación de GUI.
AutoGLM-Web插件:不止 Computer Use,AI 的「Phone Use」时刻也来了 AutoGLM soporta ahora la ejecución automatizada de tareas en múltiples aplicaciones en teléfonos Android reales mediante una aplicación Android. AutoGLM se desempeña satisfactoriamente en la evaluación manual de tareas simples.
AutoGLM-Web插件:不止 Computer Use,AI 的「Phone Use」时刻也来了

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...