Smart Spectrum GLM-PC Open Experience: agente multimodal para el funcionamiento autónomo del ordenador actualizado

智谱GLM-PC开放体验:自主操作电脑的多模态Agent再升级

 

GLM-PC es el primer agente informático llave en mano de uso público basado en el modelo multimodal CogAgent. Puede "observar" y "manejar" el ordenador como un ser humano y ayudar a los usuarios a realizar diversas tareas informáticas con eficacia.

 

Desde el lanzamiento de GLM-PC v1.0 el 29 de noviembre de 2024 y su beta abierta, hemos seguido optimizándolo y actualizándolo, con la última introducción del modo "Pensamiento profundo" y la adición de funciones dedicadas al razonamiento lógico y la generación de código. Además, elTambién ofrecemos asistencia para sistemas Windows.

 

Descarga y experiencia: https://cogagent.aminer.cn

 

Arquitectura GLM-PC

En los últimos años, se ha hablado cada vez más del Agente a nivel de modelo y arquitectura.

 

Las capacidades de invocación de herramientas de los Grandes Modelos Lingüísticos (LLM) muestran por primera vez cómo los LLM pueden utilizarse como agentes orgánicamente integrados en la producción humana, con buenas capacidades de generalización y aprendizaje de muestras pequeñas, pero su ámbito de aplicación está limitado por los tipos de herramientas de acceso público con las que se puede interactuar en forma textual.

 

para CogAgent Una serie de Inteligentes de Interfaz Gráfica (Agentes GUI) basados en el Modelo de Lenguaje Visual (VLM), representados por una serie de Agentes GUI, proponen nuevas vías para lograr una interacción completa en el espacio GUI a través de la percepción multimodal. Estos Agentes GUI, similares a los seres humanos, pueden percibir visualmente los elementos y diseños de la interfaz, y simular a los seres humanos para realizar metaoperaciones como hacer clic o introducir datos con el teclado, lo que amplía enormemente los límites de la aplicación del Agente en el espacio de interacción virtual.

 

Al mismo tiempo, los sistemas multiagente como SWE-agent demuestran el potencial de la colaboración multiagente, incorporando los puntos fuertes de varios modelos para explorar la planificación basada en múltiples modelos, la reflexión y la autoiteratividad.

 

Creemos que el desarrollo de los Agentes puede atribuirse a la mejora de la capacidad del modelo y a la optimización de la arquitectura de colaboración.

 

Un Agente completo debe cumplir las siguientes condiciones:

  • A nivel perceptivo, es capaz de recibir múltiples señales, como texto, imágenes, vídeo y audio;
  • En el nivel del pensamiento, la capacidad de pensar lógicamente y planificar tareas (similar a la del hemisferio izquierdo del cerebro) y la capacidad de percibir eficazmente y operar con flexibilidad (similar a la del hemisferio derecho del cerebro);
  • A nivel de ejecución, la capacidad de realizar operaciones espaciales con una interfaz gráfica de usuario completa, recibir información del entorno y autocorregirse.

 

Basándonos en esta idea, en 2023 introdujimos el modelo de código abierto CogAgent, que llena el vacío del Agente GUI en la percepción multimodal; y en noviembre de 2024, GLM-PC v1.0 refuerza aún más las capacidades de percepción, planificación y creación, y logra una autocorrección limitada.

 

Ahora, la nueva versión de GLM-PC aprovecha la división del trabajo entre el "cerebro izquierdo" y el "cerebro derecho" del ser humano, y logra una profunda combinación de razonamiento lógico y cognición perceptiva mediante la generación de código y la comprensión de la interfaz gráfica, lo que le confiere la capacidad de lograr un equilibrio entre lógica y creatividad para ayudar al ser humano a completar tareas complejas.

 

Detrás está el modelo multimodal CogAgent y el modelo de código desarrollado por Smart Spectrum. CodeGeex La nueva versión de GLM-PC dirige los flujos de trabajo y la invocación de herramientas en forma de código. La nueva versión de GLM-PC dirige los flujos de trabajo y la invocación de herramientas en forma de código, y refuerza la capacidad de planificar, razonar y reflexionar en modo de pensamiento profundo, de modo que pueda responder de forma estable y eficiente a escenarios y tareas complejas. Durante la ejecución real, GLM-PC es capaz de percibir la retroalimentación ambiental multicapa y ayudar a la reflexión para una autocorrección y optimización eficaces.

 

Cabe mencionar que en diciembre de 2024 pusimos a disposición pública el modelo CogAgent-9B-20241220 totalmente mejorado para facilitar la investigación sobre agentes GUI preentrenados.

 

 

Agente Cerebro Izquierdo: Generación de código y ejecución lógica

El "cerebro izquierdo" del GLM-PC es responsable del razonamiento lógico riguroso y de la ejecución de tareas. Sus funciones principales incluyen:

 

1. Planificación

GLM-PC es capaz de desarrollar rápidamente un programa detallado de planificación de tareas basado en los requisitos de las tareas del usuario. Analiza exhaustivamente tanto los objetivos como los recursos disponibles, genera una hoja de ruta de ejecución y descompone automáticamente las tareas grandes en subtareas manejables para construir una ruta de ejecución clara.

 

2、Ejecución en bucle (Looping Execution)

Al final de la fase de planificación, el GLM-PC lanzará el módulo de generación de código para ejecutar un bucle lógico que avanza paso a paso hacia la finalización de la tarea. Este mecanismo de bucle garantiza una ejecución precisa de la tarea con un alto grado de automatización, lo que da lugar a un bucle cerrado completo desde la entrada hasta la salida sin intervención humana.

 

Caso práctico: Proceso de ventanilla única

Tomando la información de los productos como ejemplo, GLM-PC puede extraer automáticamente los datos de los productos de las fotos, almacenarlos en Excel y añadir automáticamente los productos a la cesta de la compra de Taobao, realizando así un proceso de compra integral.

 

Instrucciones de uso: Obtenga la información del producto en la imagen, cree un nuevo Excel en el escritorio para almacenar la información y añádala a la cesta de la compra de Taobao.

 

(Aceleración del vídeo en el texto).

 

3. Habilidades de pensamiento a largo plazo: reflexión dinámica, corrección de errores y optimización

La función de "cerebro izquierdo" de GLM-PC no sólo genera un plan estático, sino que optimiza continuamente la solución realizando ajustes en tiempo real, correcciones reflexivas y autocorrecciones basadas en nueva información del entorno durante el proceso de ejecución. El rendimiento específico es el siguiente:

  • Flexibilidad ante interrupciones: cuando el proceso se interrumpe por factores externos, el GLM-PC reconfigura rápidamente la ruta lógica para garantizar que la tarea se desarrolle sin problemas.
  • Perfeccionamiento proactivo de la información: cuando se encuentra información que falta, GLM-PC interactúa activamente con el usuario para perfeccionar el plan de ejecución de la tarea haciéndole preguntas.

 

Caso práctico: Procesamiento eficiente de la información e interacción social

Por ejemplo, al ayudar a los usuarios a procesar la información de "Spring Festival New Year's Movie" en Xiaohongshu, GLM-PC puede encontrar y extraer rápidamente los datos relevantes y, al mismo tiempo, escribir el código para almacenar la información en el ordenador. Si hay errores en el código generado, puede corregirse de acuerdo con el mensaje de error.

 

Instrucciones: Busque "Spring Festival New Year's Eve Movies" en Xiaohongshu, cite la imagen de la primera publicación gráfica, envíe la imagen al chat de grupo {GGG} en WeChat y pregúnteles qué película les gustaría ver.

 

 

Agente Cerebro Derecho: Imágenes y Cognición GUI

El "cerebro derecho" de GLM-PC se centra en la percepción de la profundidad y la experiencia interactiva. Sus funciones básicas abarcan:

  • Comprensión de imágenes de interfaz gráfica de usuario: Identificar con precisión elementos de interfaz gráfica (por ejemplo, botones, iconos, diseños, etc.) y comprender su función y lógica de interacción.
  • Cognición del comportamiento del usuario: combinando el aprendizaje de la interfaz de usuario y la comprensión de la información histórica de las operaciones, proporciona al usuario operaciones inteligentes recomendadas para la interfaz actual.
  • Análisis semántico de imágenes: análisis semántico en profundidad de imágenes complejas para extraer información clave como texto, identificadores y tendencias e indicadores en gráficos de visualización de datos.
  • Fusión de información multimodal: fusión de información de imagen y texto para formar un resultado de percepción global. Por ejemplo, reconocer tanto las posiciones de los botones como las etiquetas de texto en la interfaz de usuario, lo que ayuda al "cerebro izquierdo" a formular planes de funcionamiento precisos.

 

Demostración: organización y archivo eficaces de datos

Por ejemplo, GLM-PC es capaz de buscar y extraer el contenido gráfico relacionado con "AI ranking" en Xiaohongshu. Posteriormente, a través del código autoescrito, la información de la empresa se almacena en el archivo Excel recién creado en el escritorio, y el contenido textual de los posts se guarda en el documento Word especificado, lo que garantiza una organización y archivo eficaces de los datos del usuario y mejora la eficiencia de la gestión de la información.

 

Instrucciones de uso: busca "lista de coches de nueva energía" en el primer post de imagen y texto en Xiaohongshu, cita el contenido de la imagen y el contenido del texto del primer post, obtén la lista de información de la imagen y guárdala en el nuevo Excel del escritorio, y pon el contenido del texto del post en un nuevo documento de word llamado new-energy en el escritorio. y poner el texto del post en un nuevo documento de word llamado nueva-energía en el escritorio.

 

 

Agente de agentes: colaboración entre los cerebros izquierdo y derecho

Este modelo, que se basa en la colaboración entre los cerebros izquierdo y derecho, permite a GLM-PC no sólo gestionar tareas lógicas complejas, sino también demostrar una mayor adaptabilidad, creatividad y generalización en problemas abiertos. Mediante la optimización dinámica y el conocimiento del contexto, GLM-PC puede ayudar a los usuarios a explorar soluciones más eficientes, especialmente en el procesamiento de tareas cíclicas, la ejecución de razonamientos en varios pasos y la gestión de tareas en cadena.

 

Caso práctico: Ayuda para el estudio del vocabulario de inglés de 6º curso

GLM-PC, como Asistente de Aprendizaje de Vocabulario de Inglés de 6º Grado, puede extraer automáticamente palabras de vocabulario de 6º Grado de sitios web designados, hacer frases basadas en estas palabras y guardar automáticamente las palabras de vocabulario y sus frases en un nuevo documento de Word llamado "Aprendizaje de Vocabulario de Inglés de 6º Grado".

 

Encuentra 3 palabras de vocabulario en este "https://www.dxsbb.com/news/277.html" Vocabulario de 6º grado, luego haz una frase para cada palabra, pega las palabras de vocabulario y las frases correspondientes en un nuevo documento de Word y guárdalo como "Estudio de vocabulario de inglés de 6º grado".

 

 

Demostración: envío en grupo de fotos personalizadas de felicitaciones de WeChat y de Año Nuevo

GLM-PC es capaz de personalizar automáticamente deseos para el Año Nuevo Chino e imágenes/vídeos de felicitación para los amigos del grupo de WeChat y enviarlos en grupo con un solo clic, completando las felicitaciones festivas de forma eficaz.

 

Instrucción: Cita la lista de miembros del grupo "GGG" en WeChat, y envía a cada uno de ellos un mensaje de deseo del Año Nuevo Chino 2025 y una foto con el tema del Año de la Serpiente.

 

 

Estudio de caso: consulta y programación inteligente de vuelos

GLM-PC puede proporcionar a los usuarios información rápida sobre vuelos, seleccionar los billetes de avión más económicos y sincronizar con la configuración del recordatorio de calendario Flybook para lograr un servicio integral desde la consulta de vuelos, la selección de billetes y la programación.

 

Instrucciones: Ayúdenme a encontrar el billete de avión más barato de Shanghai a Pekín el 21 de enero en Ctrip; Ayúdenme a configurar un Calendario Flybook para 6 horas antes del vuelo, con el tema Salida al aeropuerto y una duración de media hora.

 

Escaparate: Proceso de extracción y organización de preguntas de matemáticas en PDF

GLM-PC abre automáticamente los archivos PDF, extrae el contenido especificado y coteja y almacena la información en un documento de Word.

 

Instrucción de la operación: Ayúdeme a abrir el archivo de escritorio Ejercicio de permutación y teorema binomial.pdf, cite las primeras preguntas de matemáticas que resumen la interfaz actual , y póngalas en un nuevo documento de word en el escritorio.

 

 

colaboración

Estamos explorando una cooperación en profundidad con fabricantes de PC de renombre como Lenovo y Asus para promover conjuntamente la innovación y el desarrollo de AIPC (AI Personal Computer).

 

AIPC no es sólo un ordenador, sino también una nueva aplicación del agente de IA en la informática personal, que puede proporcionar a los usuarios una experiencia de trabajo y vida más eficiente e inteligente.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...