Smart Spectrum lanza AutoGLM, un Agente autónomo de ejecución de tareas: esta vez, permite que el Agente opere activamente todo tipo de dispositivos para realizar tareas

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

59.3K 00

智谱发布自主执行任务Agent——AutoGLM：这次让Agent主动操作各类设备执行任务
Se está produciendo un cambio de paradigma en la forma en que los seres humanos interactúan con las máquinas. Esto se debe a la evolución del Chatbot de solo diálogo a un Agente autónomo con manos, cerebro y ojos.

Smart Spectrum, una de las primeras grandes empresas modelo en explorar el agente, aporta hoy varias novedades:

AutoGLM puede realizar de forma autónoma operaciones largas paso a paso con más de 50 pasos, y también puede realizar tareas entre aplicaciones.
AutoGLM abre una nueva experiencia de Internet "totalmente automatizada", admite docenas de sitios web y más sin tripulación
GLM-PC para manejar ordenadores como si fueran humanos Puesta en marcha de pruebas internas y exploración de técnicas para implantar agentes de propósito general basados en modelos visuales multimodales.

En el Agent OpenDay, AutoGLM envió "un paquete rojo WeChat de IA" a cientos de invitados y ordenó a distancia a los ordenadores que enviaran archivos automáticamente desde teléfonos móviles.

智谱发布自主执行任务Agent——AutoGLM：这次让Agent主动操作各类设备执行任务
El director general de Wisdom Spectrum, Zhang Peng, sólo tiene que dar una simple orden de voz en el acto. En un principio, se trataba de operaciones muy complejas para la máquina, hoy completamente por el Zhi Spectrum productised Agent para completar.

Nueva actualización de AutoGLM: el reto se vuelve más complejo

El AutoGLM recién actualizado puede enfrentarse al reto de completar tareas complejas:
Más largo: Comprende instrucciones muy largas y realiza tareas muy largas. Por ejemplo, en el ejemplo de la compra de ingredientes para una olla caliente, AutoGLM realiza de forma autónoma 54 pasos sin interrupción. Además, AutoGLM supera la operación manual humana en esta larga tarea cíclica de varios pasos.
Aplicación cruzada: AutoGLM admite la ejecución cruzada de tareas. Los usuarios se acostumbrarán al procesamiento automático de la IA en lugar de tener que alternar entre varias aplicaciones. Dado que la forma actual de AutoGLM es más como una capa de programación para la ejecución de APP entre usuarios y aplicaciones, la capacidad cross-app es un paso muy crítico en ella.
Frases cortas: AutoGLM admite frases personalizadas para tareas largas. Hoy en día, en lugar de dar a AutoGLM órdenes largas como "Cómprame un café, latte de coco crudo, tienda Wudaokou, grande, caliente, con poco azúcar", puedes decir simplemente "Pide un café".
Modo Casual: Todos tememos tomar decisiones, y hoy AutoGLM puede ayudarte activamente a tomarlas. En el Modo Casual, la IA decide todos los pasos y te trae una sorpresa en forma de caja ciega. ¿Te gustaría probar el sabor de café que la IA pide por ti?

Al mismo tiempo, AutoGLM ha puesto en marcha pruebas internas a gran escala y se lanzará lo antes posible como producto para usuarios de soporte C. AutoGLM también anunció el lanzamiento del programa "1 Billion APPs Free Auto Upgrade", invitando a los socios de Apps a explorar conjuntamente sus propios nuevos escenarios Auto.

Las API de muestras de AutoGLM compatibles con los escenarios y las aplicaciones principales estarán disponibles para su prueba en la plataforma abierta Smart Spectrum maas (bigmodel.cn) en un plazo de dos semanas.

El terminal web abre una nueva experiencia de navegación "totalmente automatizada": a partir de ahora, el plug-in AutoGLM de Wisdom Spectrum se pone en línea, apoyando la conducción no tripulada de docenas de sitios web como la búsqueda Baidu, Weibo, Zhihu, Github y así sucesivamente. En la demostración in situ, el plug-in AutoGLM completó automáticamente el proceso de "búsqueda de Mango tv en Baidu, apertura de Little Alley House, reproducción del último episodio y envío de ventanas emergentes para fichar el final". Todo el proceso sin intervención humana.

智谱发布自主执行任务Agent——AutoGLM：这次让Agent主动操作各类设备执行任务

GLM-PC Invitación a la prueba: una exploración tecnológica para ordenadores "sin conductor".

No sólo basados en teléfonos móviles y navegadores, hoy Wisdom Spectrum también trae Agentes Autónomos basados en PC. GLM-PC es una exploración tecnológica del equipo GLM para PC "sin conductor", basada en el modelo multimodal CogAgent de Wisdom Spectrum. actualmente está abierta la primera fase de escenarios de pruebas internas, que incluyen:

Asistentes a reuniones: ayudan a los usuarios a reservar y participar en reuniones, envían resúmenes de reuniones.
Tratamiento de documentos: ayuda a descargar documentos, enviarlos, comprenderlos y resumirlos.
Búsqueda y resumen en la web: búsqueda de palabras clave específicas en plataformas designadas (por ejemplo, WeChat, Zhihu, Xiaohongshu, etc.) para completar la lectura y el resumen.
Operación remota y temporizada: El teléfono móvil remoto envía comandos, GLM-PC puede completar de forma autónoma la operación del ordenador; establecer un tiempo futuro para ejecutar tareas regularmente en el estado de arranque.
Pantalla invisible: mientras el usuario trabaja, el GLM-PC puede completar su trabajo de forma autónoma en la pantalla invisible, liberando el uso de la pantalla.

El GLM-PC utiliza un ordenador casi exactamente igual que lo haría un ser humano: mirando gráficos y texto con los ojos, planificando con el cerebro y, a continuación, utilizando las manos para realizar operaciones como hacer clic, hacer doble clic, teclear, etc. Por eso, el GLM-PC ha aprendido a utilizar cualquier aplicación diseñada para uso humano. Por ello, el GLM-PC es teóricamente capaz de ejecutar cualquier aplicación diseñada para humanos después de aprenderla. Se trata de una capacidad multiplataforma a nivel de sistema que no depende de HTML ni de API, y que tiene un techo de capacidad más elevado.

Sin embargo, debido a la complejidad del PC, y al hecho de que casi todo lo que todo el mundo hace en el PC es una tarea compleja, francamente, las capacidades de los grandes modelos actuales aún están lejos de ser un verdadero sustituto para todo el mundo en la oficina. el GLM-PC, en su versión actual, aún requiere que el usuario introduzca comandos muy precisos.

Se ha abierto la "Invitación a experimentar" de GLM-PC. Seguiremos trabajando duro para poner el producto a disposición de todos los usuarios lo antes posible una vez perfeccionado, y también esperamos explorar con más proveedores en una empresa conjunta.

AutoGLM y GLM-PC son nuestros importantes intentos de avanzar hacia un sistema operativo inteligente de IA. Surgieron de la acumulación por parte de Wiseplan de tecnologías en grandes modelos de lenguaje, modelos multimodales, razonamiento lógico y uso de herramientas. Empezando por AgentBench en abril del 23, hasta el modelo CogAgent en agosto, la investigación y desarrollo de Wiseplan para AutoGLM, y el modelo de GLM-PC, CogAgent, se ha llevado a cabo durante un año y medio.

A diferencia de OpenAI, Smart Spectrum define cinco etapas en el desarrollo del Gran Modelo: L1 Competencia lingüística, L2 Competencia lógica (competencia multimodal), L3 Capacidad para utilizar herramientas, L4 Competencia de autoaprendizaje, L5 Exploración de las leyes científicas.

Hasta la fecha, el desarrollo ha dotado al Big Model de algunas de las capacidades de la interacción humana con el mundo físico real. "El agente mejorará enormemente la capacidad de L3 para utilizar herramientas, al tiempo que abrirá la exploración de la capacidad de autoaprendizaje de L4". afirmó Zhang Peng.

Zhang Peng afirmó que el equipo de GLM seguirá acelerando el desarrollo de productos de modelos de agentes en el futuro, con la vista puesta en el paradigma de manejar ordenadores y teléfonos móviles en una sola frase lo antes posible.

Grandes modelos del chat a la acción

En la actualidad, la tecnología Big Model está cambiando la forma en que interactúan las máquinas y las personas, basándose en la comprensión de las necesidades, la planificación y la toma de decisiones, la realización de acciones y la autorreflexión. El agente traerá consigo una interacción intuitiva entre las personas y las máquinas: de que las personas se adapten a las máquinas a que las máquinas se adapten a las personas.

Empresas como Apple Intelligence, Anthropic (Computer Use), Google (Jarvis) y OpenAI (Operator) también han identificado la IA agéntica como uno de los principales focos de atención para 2025. Recientemente, Gartner incluyó la IA agéntica entre las 10 principales tendencias tecnológicas para 2025 y predijo que al menos 15% de las decisiones laborales diarias serán tomadas de forma autónoma por IA agéntica en 2028, frente a cero en 2024.

A diferencia de GenAI, los Agentes se guían por objetivos, son capaces de ejecutar flujos de trabajo completos, adaptarse, aprender, iterar, colaborar con otros sistemas y humanos y completar tareas de principio a fin. En opinión de Zhang Peng, Agent puede considerarse el prototipo de LLM-OS, el Sistema Operativo General de Gran Modelo.

"En esta fase, AutoGLM equivale a añadir una capa de programación de la ejecución entre los humanos y las aplicaciones, lo que cambia en gran medida la forma de interacción entre humanos y máquinas. Y lo que es más importante, vemos la posibilidad de LLM-OS, basado en grandes capacidades de inteligencia de modelos (de L1 a L4 y más allá), que tiene la oportunidad de permitir una interacción nativa entre humanos y ordenadores en el futuro. Llevando el paradigma HCI al siguiente nivel".

Un nuevo paradigma para los dispositivos inteligentes en la era de la IA

A medida que siguen evolucionando las capacidades de los grandes modelos, estamos viendo cómo la IA hace crecer poco a poco su propio cerebro, sus ojos y sus manos. No solo sigue creciendo la inteligencia, sino que se enriquecen y amplían las capacidades perceptivas y el ancho de banda de interacción, así como la ejecución acelerada que ahora aporta Agent.

Zhang Fan, Director de Operaciones de Smart Spectrum, afirmó que los dispositivos inteligentes se verán renovados con nuevas oportunidades gracias al apoyo de los grandes modelos. Los teléfonos móviles + IA se convertirán en asistentes personales inteligentes, los PC + IA se convertirán en nuevas herramientas de productividad, y los coches + IA harán que el coche se convierta en el tercer espacio vital inteligente de las personas. Por supuesto, el Big Model no sólo traerá oportunidades para los teléfonos móviles, los PC y los coches, sino que también beneficiará a todo tipo de dispositivos inteligentes. La continua evolución del Big Model ha sentado unas bases sólidas para que Agent transforme la experiencia de interacción entre el ser humano y el vehículo.

Con la mejora continua del rendimiento y la potencia de cálculo del lado extremo, los modelos adaptados a los dispositivos nativos de IA y la aparición de una arquitectura colaborativa con homología extremo-nube, Agent no solo está transformando la experiencia del usuario en los sistemas operativos y las aplicaciones, sino que también la está extendiendo a todo tipo de dispositivos inteligentes, desde teléfonos móviles a ordenadores, pasando por coches, gafas, hogares y todo tipo de dispositivos del lado extremo, todo tipo de dispositivos nativos de IA se apresuran a surgir.

Wang Zuo-jian, Director Técnico de IA de Glory, Zhong Huai-sheng, Director de Ecología Inteligente de ASUS AIPC, Lian Lei, Director de Voz Inteligente/Negocio Inteligente de Xiaopeng Automobile Cockpit, Wan Satellite, Director de Tecnología de Productos de IA de Qualcomm China, y Gao Yu, Director General del Departamento de Tecnología de Intel en China, como clientes y socios de Smart Spectrum, compartieron sus prácticas y perspectivas sobre terminales inteligentes, respectivamente, desde diferentes escenarios.

El desarrollo de Big Model y Agent no sólo aporta a los usuarios un nuevo paradigma de dispositivos inteligentes en la era de la IA, sino que también supone un espacio de aterrizaje más amplio para la tecnología Big Model. De los dispositivos inteligentes a las redes inteligentes, en un futuro próximo veremos la interconectividad y las infinitas posibilidades de los dispositivos nativos de la IA. En este proceso, Smart Spectrum también proporcionará una serie de productos y capacidades para ayudar a los dispositivos inteligentes a adoptar los grandes modelos y acelerar hacia una nueva era de dispositivos nativos de IA.

Dirección de la aplicación AutoGLM

Aplicar en el AutoGLM Insider's Tipster

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Baidu corazón amargo... ...Wenxin Yiyin será completamente gratuito a partir del 1 de abril, y la función de búsqueda profunda en línea

Noticias AI

hace 1 año

041.7K

No hace falta programar, ¡todo el mundo puede desarrollar aplicaciones! Seconda" de Baidu lidera la era sin código.

Noticias AI

hace 1 año

048.3K

Llama 3.2 Reasoning WebGPU：在浏览器中运行LLama-3.2

WebGPU de razonamiento de Llama 3.2: ejecución de Llama-3.2 en un navegador

Noticias AI # AI Java Proyecto de código abierto # Herramienta de modelos de gran tamaño de código abierto desplegada localmente

hace 1 año

050.4K

Recomendar un sistema profesional de clonación humana digital apto para operaciones de bajo coste

Noticias AI

hace 1 año

040K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Smart Spectrum lanza AutoGLM, un Agente autónomo de ejecución de tareas: esta vez, permite que el Agente opere activamente todo tipo de dispositivos para realizar tareas

Nueva actualización de AutoGLM: el reto se vuelve más complejo

GLM-PC Invitación a la prueba: una exploración tecnológica para ordenadores "sin conductor".

Grandes modelos del chat a la acción

Un nuevo paradigma para los dispositivos inteligentes en la era de la IA

Dirección de la aplicación AutoGLM

Tecnología para cambiar el nombre + basada en la piel: "360 AI search" pasa a llamarse "nano search" e imita la interfaz de KIMI

Nueva versión｜Copilot + Agents, una nueva era de desarrollo inteligente de bajo código.

Artículos relacionados

Baidu corazón amargo... ...Wenxin Yiyin será completamente gratuito a partir del 1 de abril, y la función de búsqueda profunda en línea

No hace falta programar, ¡todo el mundo puede desarrollar aplicaciones! Seconda" de Baidu lidera la era sin código.

WebGPU de razonamiento de Llama 3.2: ejecución de Llama-3.2 en un navegador

Recomendar un sistema profesional de clonación humana digital apto para operaciones de bajo coste

Sin comentarios

Últimas colecciones

Últimos artículos

Smart Spectrum lanza AutoGLM, un Agente autónomo de ejecución de tareas: esta vez, permite que el Agente opere activamente todo tipo de dispositivos para realizar tareas

Nueva actualización de AutoGLM: el reto se vuelve más complejo

GLM-PC Invitación a la prueba: una exploración tecnológica para ordenadores "sin conductor".

Grandes modelos del chat a la acción

Un nuevo paradigma para los dispositivos inteligentes en la era de la IA

Dirección de la aplicación AutoGLM

Tecnología para cambiar el nombre + basada en la piel: "360 AI search" pasa a llamarse "nano search" e imita la interfaz de KIMI

Nueva versión｜Copilot + Agents, una nueva era de desarrollo inteligente de bajo código.

Artículos relacionados

Baidu corazón amargo... ...Wenxin Yiyin será completamente gratuito a partir del 1 de abril, y la función de búsqueda profunda en línea

No hace falta programar, ¡todo el mundo puede desarrollar aplicaciones! Seconda" de Baidu lidera la era sin código.

WebGPU de razonamiento de Llama 3.2: ejecución de Llama-3.2 en un navegador

Recomendar un sistema profesional de clonación humana digital apto para operaciones de bajo coste

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos