Smart Spectrum veröffentlicht AutoGLM, einen autonomen Agenten für die Ausführung von Aufgaben: dieses Mal kann der Agent alle Arten von Geräten aktiv bedienen, um Aufgaben auszuführen

AI-NachrichtenGeschrieben vor 10 Monaten AI-Austauschkreis

智谱发布自主执行任务Agent——AutoGLM：这次让Agent主动操作各类设备执行任务
Es gibt einen Paradigmenwechsel in der Art und Weise, wie Menschen mit Maschinen interagieren. Dies ist auf die Entwicklung des reinen Dialog-Chatbots zu einem autonomen Agenten mit Händen, Gehirn und Augen zurückzuführen.

Als eines der ersten großen Modellunternehmen, das sich mit dem Thema Agent beschäftigt, bringt Smart Spectrum heute mehrere neue Entwicklungen auf den Tisch:

AutoGLM kann selbständig lange Schritte mit mehr als 50 Aktionen durchführen und auch appübergreifende Aufgaben übernehmen.
AutoGLM eröffnet neues "vollautomatisches" Interneterlebnis, unterstützt Dutzende von Websites und mehr unbemannt
GLM-PC für die Bedienung von Computern wie Menschen Start interner Tests und Erforschung von Techniken zur Implementierung von Universalagenten auf der Grundlage visueller multimodaler Modelle

Auf dem Agent OpenDay schickte AutoGLM "ein rotes WeChat-Paket von KI" an Hunderte von Gästen und befahl Computern aus der Ferne, automatisch Dateien von Mobiltelefonen zu senden.

智谱发布自主执行任务Agent——AutoGLM：这次让Agent主动操作各类设备执行任务
Der CEO von Wisdom Spectrum, Zhang Peng, braucht nur einen einfachen Sprachbefehl auf der Stelle zu geben. Dies waren ursprünglich sehr komplexe Vorgänge für die Maschine, die heute vollständig durch den Zhi Spectrum Producted Agent erledigt werden.

Das neue Upgrade von AutoGLM: Die Herausforderung wird komplexer

Der neu aufgerüstete AutoGLM kann bei komplexen Aufgaben gefordert werden:
Länger: Verstehen Sie besonders lange Anweisungen und führen Sie besonders lange Aufgaben aus. Im Beispiel des Einkaufs von Hotpot-Zutaten führt AutoGLM 54 Schritte ohne Unterbrechung autonom aus. Darüber hinaus übertrifft AutoGLM bei dieser langen, mehrstufigen und zyklischen Aufgabe die menschliche Handarbeit.
App-übergreifend: AutoGLM unterstützt die app-übergreifende Ausführung von Aufgaben. Die Benutzer werden sich daran gewöhnen, dass die KI automatisch arbeitet, anstatt zwischen mehreren Apps hin und her zu wechseln. Da die derzeitige Form von AutoGLM eher eine Planungsschicht für die APP-Ausführung zwischen Benutzern und Anwendungen ist, ist die app-übergreifende Fähigkeit ein sehr wichtiger Schritt.
Kurze Phrasen: AutoGLM ist in der Lage, benutzerdefinierte Phrasen für lange Aufgaben zu unterstützen. Anstatt AutoGLM lange Befehle zu geben wie "Kauf mir einen Kaffee, Rohkost-Kokosnuss-Latte, Wudaokou-Shop, groß, heiß, leichter Zucker", können Sie einfach sagen: "Kaffee bestellen".
Casual Mode: Wir alle haben Angst davor, Entscheidungen zu treffen, und heute kann AutoGLM Ihnen aktiv helfen, Entscheidungen zu treffen. Im Casual Mode entscheidet die KI über alle Schritte und bietet Ihnen eine Überraschung in Form einer Blindbox. Möchten Sie die Kaffeesorte probieren, die die KI für Sie bestellt?

Gleichzeitig hat AutoGLM einen groß angelegten internen Test gestartet und wird so bald wie möglich als Produkt für C-Support-Benutzer auf den Markt kommen. AutoGLM kündigte auch den Start eines Programms von "1 Milliarde APPs mit kostenlosen Auto-Upgrades" an und lud App-Partner ein, gemeinsam ihre eigenen neuen Auto-Szenarien zu erforschen.

Die AutoGLM-Muster-APIs, die Kernszenarien und Kernanwendungen unterstützen, werden innerhalb von zwei Wochen auf der offenen Plattform Smart Spectrum maas (bigmodel.cn) zum Testen verfügbar sein.

Webterminal eröffnet eine neue Erfahrung des "vollautomatischen" Surfens: Ab sofort geht das AutoGLM-Plugin von Wisdom Spectrum online und unterstützt das unbemannte Fahren von Dutzenden von Websites wie Baidu-Suche, Weibo, Zhihu, Github und so weiter. In der Vor-Ort-Demonstration führte das AutoGLM-Plugin automatisch den Prozess der "Suche nach Mango TV in Baidu, dem Öffnen von Little Alley House, dem Abspielen der letzten Folge und dem Senden von Pop-ups, um das Ende einzugeben" durch. Der gesamte Prozess läuft ohne menschliches Zutun ab.

智谱发布自主执行任务Agent——AutoGLM：这次让Agent主动操作各类设备执行任务

GLM-PC Einladung zum Test: Eine technologische Erkundung für "fahrerlose" Computer

GLM-PC ist eine vom GLM-Team erforschte Technologie für "fahrerlose" PCs, die auf dem multimodalen Modell CogAgent von Wisdom Spectrum basiert:

Meeting-Vertretungen: Unterstützung der Nutzer bei der Buchung und Teilnahme an Meetings, Versendung von Meeting-Zusammenfassungen.
Dokumentenverarbeitung: Unterstützung beim Herunterladen von Dokumenten, Versenden von Dokumenten, Verstehen und Zusammenfassen von Dokumenten.
Websuche und Zusammenfassung: Suchen Sie auf bestimmten Plattformen (z. B. WeChat, Zhihu, Xiaohongshu usw.) nach bestimmten Stichwörtern, um die Lektüre und Zusammenfassung zu vervollständigen.
Fern- und zeitgesteuerter Betrieb: Das Mobiltelefon sendet Befehle, der GLM-PC kann den Computerbetrieb selbstständig durchführen; stellen Sie eine zukünftige Zeit ein, um Aufgaben regelmäßig im Startzustand auszuführen.
Unsichtbarer Bildschirm: Während der Benutzer arbeitet, kann der GLM-PC seine Arbeit selbstständig auf dem unsichtbaren Bildschirm erledigen, so dass die Nutzung des Bildschirms nicht beeinträchtigt wird.

Der GLM-PC benutzt einen Computer fast genauso wie ein Mensch - indem er Grafiken und Text mit den Augen betrachtet, mit dem Gehirn plant und dann die Hände benutzt, um Operationen wie Klicken, Doppelklicken, Tippen usw. auszuführen. Deshalb hat der GLM-PC gelernt, jede Anwendung zu benutzen, die für den menschlichen Gebrauch entwickelt wurde. Aus diesem Grund ist der GLM-PC theoretisch in der Lage, jede für den Menschen konzipierte Anwendung auszuführen, nachdem er sie erlernt hat. Dies ist eine plattformübergreifende Fähigkeit auf Systemebene, die nicht auf HTML oder APIs angewiesen ist und eine höhere Fähigkeitsgrenze hat.

Aufgrund der Komplexität des PCs und der Tatsache, dass fast alles, was man am PC macht, eine komplexe Aufgabe ist, sind die Fähigkeiten der heutigen großen Modelle offen gesagt noch weit davon entfernt, ein echter Ersatz für jeden im Büro zu sein. Der GLM-PC in seiner aktuellen Version erfordert immer noch die Eingabe sehr präziser Befehle durch den Benutzer.

GLM-PC "Einladung zum Erleben" ist eröffnet worden. Wir werden weiterhin hart daran arbeiten, das Produkt nach seiner Perfektionierung so schnell wie möglich allen Nutzern zur Verfügung zu stellen, und wir hoffen, dass wir auch mit weiteren Anbietern ein Joint Venture eingehen können.

AutoGLM und GLM-PC sind unsere wichtigen Versuche auf dem Weg zu einem intelligenten KI-Betriebssystem. Sie sind aus der Ansammlung von Technologien von Wiseplan in den Bereichen große Sprachmodelle, multimodale Modelle, logisches Denken und Werkzeugnutzung entstanden. Von der AgentBench im April 23 bis zum CogAgent-Modell im August hat Wiseplan eineinhalb Jahre lang an der Forschung und Entwicklung von AutoGLM und dem GLM-PC-Modell CogAgent gearbeitet.

Im Gegensatz zu OpenAI definiert Smart Spectrum fünf Stufen in der Entwicklung des Großen Modells: L1 Sprachliche Kompetenz, L2 Logische Kompetenz (multimodale Kompetenz), L3 Fähigkeit zur Nutzung von Werkzeugen, L4 Selbstlernkompetenz, L5 Erforschung wissenschaftlicher Gesetze.

Bei der bisherigen Entwicklung wurde das Big Model mit einigen der Fähigkeiten der menschlichen Interaktion mit der realen physischen Welt ausgestattet. "Der Agent wird die Fähigkeit von L3, Werkzeuge zu benutzen, erheblich verbessern und gleichzeitig die Erforschung der Fähigkeit von L4, selbst zu lernen, ermöglichen. sagte Zhang Peng.

Zhang Peng sagte, dass das GLM-Team die Entwicklung von Agentenmodellen in Zukunft weiter vorantreiben wird und sich darauf freut, dass das Paradigma, Computer und Mobiltelefone in einem Satz zu bedienen, so bald wie möglich erreicht wird.

Große Modelle von Chat bis Act

Heute verändert die Big-Model-Technologie die Art und Weise, wie Maschinen und Menschen interagieren. Sie basiert auf dem Verstehen von Bedürfnissen, der Planung und Entscheidungsfindung, der Durchführung von Handlungen und der Selbstreflexion, Agent wird eine intuitive Mensch-Computer-Interaktion ermöglichen - von der Anpassung der Menschen an die Maschinen bis hin zur Anpassung der Maschinen an die Menschen.

Unternehmen wie Apple Intelligence, Anthropic (Computer Use), Google (Jarvis) und OpenAI (Operator) haben die agentenbasierte KI ebenfalls als einen wichtigen Schwerpunkt für 2025 identifiziert. Gartner hat die agentenbasierte KI kürzlich als einen der 10 wichtigsten Technologietrends für 2025 aufgeführt und prognostiziert, dass im Jahr 2028 mindestens 15% der täglichen Arbeitsentscheidungen autonom von der agentenbasierten KI getroffen werden, während es im Jahr 2024 noch null waren.

Im Gegensatz zu GenAI sind Agenten zielorientiert und in der Lage, Arbeitsabläufe vollständig auszuführen, sich anzupassen, zu lernen, zu iterieren, mit anderen Systemen und Menschen zusammenzuarbeiten und Aufgaben von Anfang bis Ende zu bewältigen. Nach Ansicht von Zhang Peng kann der Agent als Prototyp des LLM-OS, des Large Model General Operating System, angesehen werden.

"In diesem Stadium ist AutoGLM gleichbedeutend mit dem Hinzufügen einer Ausführungsplanungsschicht zwischen Mensch und Anwendung, was die Form der Mensch-Maschine-Interaktion weitgehend verändert. Noch wichtiger ist, dass wir die Möglichkeit eines LLM-OS sehen, das auf umfangreichen Modellintelligenzfähigkeiten (von L1 bis L4 und darüber hinaus) basiert und die Chance hat, in Zukunft eine native Mensch-Maschine-Interaktion zu ermöglichen. Damit wird das HCI-Paradigma auf die nächste Stufe gehoben."

Ein neues Paradigma für intelligente Geräte im Zeitalter der KI

Mit der Weiterentwicklung der Big-Model-Fähigkeiten sehen wir, wie die KI langsam ihr eigenes Gehirn, ihre Augen und Hände entwickelt. Nicht nur die Intelligenz wächst weiter, sondern auch die Wahrnehmungsfähigkeiten und die Interaktionsbandbreite werden bereichert und erweitert, ebenso wie die beschleunigte Ausführung, die der Agent jetzt bietet.

Zhang Fan, COO von Smart Spectrum, sagte, dass intelligente Geräte mit der Unterstützung von großen Modellen neue Möglichkeiten erhalten werden. Mobiltelefone + KI werden zu persönlichen intelligenten Assistenten, PCs + KI werden zu neuen Produktivitätswerkzeugen, und Autos + KI werden das Auto zu einem intelligenten dritten Lebensraum für die Menschen machen. Natürlich wird das Big Model nicht nur Möglichkeiten für Mobiltelefone, PCs und Autos bieten, sondern auch allen Arten von intelligenten Geräten zugute kommen. Die kontinuierliche Entwicklung des Big Model hat eine solide Grundlage für Agent geschaffen, um die Interaktion zwischen Mensch und Fahrzeug zu verändern.

Mit der kontinuierlichen Verbesserung der Leistung und Rechenleistung auf der Endgeräteseite, den für KI-Geräte angepassten Modellen und der Entstehung einer kollaborativen Architektur mit End-Cloud-Homologie verändert Agent nicht nur das Nutzererlebnis auf Betriebssystemen und Anwendungen, sondern weitet es auch auf alle Arten von intelligenten Geräten aus, von Mobiltelefonen über Computer bis hin zu Autos, Brillen, Häusern und allen Arten von Edge-Geräten.

Wang Zuo-jian, AI Technical Director von Glory, Zhong Huai-sheng, Head of Intelligent Ecology von ASUS AIPC, Lian Lei, Head of Intelligent Voice/Intelligent Business von Xiaopeng Automobile Cockpit, Wan Satellite, Head of Qualcomm AI Product Technology China, und Gao Yu, General Manager of Technology Department von Intel in China, teilten als Kunden und Partner von Smart Spectrum ihre Erfahrungen und Aussichten zu intelligenten Endgeräten in verschiedenen Szenarien.

Die Entwicklung von Big Model und Agent bringt den Nutzern nicht nur ein neues Paradigma von intelligenten Geräten im Zeitalter der KI, sondern bedeutet auch einen breiteren Raum für die Big Model-Technologie. Von intelligenten Geräten bis hin zu intelligenten Netzwerken werden wir in naher Zukunft die Interkonnektivität und die unendlichen Möglichkeiten von KI-nativen Geräten erleben. In diesem Prozess wird Smart Spectrum auch eine Reihe von Produkten und Funktionen bereitstellen, die intelligenten Geräten dabei helfen, Big Models zu übernehmen und den Übergang zu einer neuen Ära von KI-nativen Geräten zu beschleunigen.

AutoGLM-Anwendungsadresse

Bewerben im AutoGLM Insider Mini Helpers

AI-Nachrichten

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Überlegungen zur Verwendung von Devin nach einem Monat, in dem mehr als 20 Aufgaben mit Devin ausgeführt wurden

AI-Nachrichten

vor 8 Monaten

018.1K

Claude 3.7 Sonnet：首创混合推理模式并推出智能编码工具 Claude Code

Claude 3.7 Sonnet: Erstes hybrides Reasoning-Modell und Einführung des intelligenten Kodierungswerkzeugs Claude Code

AI-Nachrichten

vor 7 Monaten

017K

Ehemaliger Leiter des Nachschulungsteams von OpenAI erklärt Methoden und Herausforderungen der Nachschulung, PPT geht viral!

AI-Nachrichten

vor 7 Monaten

012.7K

Perplexity führt Echtzeit-Aktienanalysen ein, um Anlegern zu helfen, den Puls der Märkte zu fühlen

AI-Nachrichten

vor 11 Monaten

012.8K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

Smart Spectrum veröffentlicht AutoGLM, einen autonomen Agenten für die Ausführung von Aufgaben: dieses Mal kann der Agent alle Arten von Geräten aktiv bedienen, um Aufgaben auszuführen

Das neue Upgrade von AutoGLM: Die Herausforderung wird komplexer

GLM-PC Einladung zum Test: Eine technologische Erkundung für "fahrerlose" Computer

Große Modelle von Chat bis Act

Ein neues Paradigma für intelligente Geräte im Zeitalter der KI

AutoGLM-Anwendungsadresse

Technologie zur Namensänderung + Skin-basiert: "360 AI search" umbenannt in "nano search" und die KIMI-Schnittstelle imitiert

Neue Version｜Copilot + Agents, eine neue Ära der intelligenten Low-Code-Entwicklung.

Ähnliche Artikel

Überlegungen zur Verwendung von Devin nach einem Monat, in dem mehr als 20 Aufgaben mit Devin ausgeführt wurden

Claude 3.7 Sonnet: Erstes hybrides Reasoning-Modell und Einführung des intelligenten Kodierungswerkzeugs Claude Code

Ehemaliger Leiter des Nachschulungsteams von OpenAI erklärt Methoden und Herausforderungen der Nachschulung, PPT geht viral!

Perplexity führt Echtzeit-Aktienanalysen ein, um Anlegern zu helfen, den Puls der Märkte zu fühlen

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

Smart Spectrum veröffentlicht AutoGLM, einen autonomen Agenten für die Ausführung von Aufgaben: dieses Mal kann der Agent alle Arten von Geräten aktiv bedienen, um Aufgaben auszuführen

Das neue Upgrade von AutoGLM: Die Herausforderung wird komplexer

GLM-PC Einladung zum Test: Eine technologische Erkundung für "fahrerlose" Computer

Große Modelle von Chat bis Act

Ein neues Paradigma für intelligente Geräte im Zeitalter der KI

AutoGLM-Anwendungsadresse

Technologie zur Namensänderung + Skin-basiert: "360 AI search" umbenannt in "nano search" und die KIMI-Schnittstelle imitiert

Neue Version｜Copilot + Agents, eine neue Ära der intelligenten Low-Code-Entwicklung.

Ähnliche Artikel

Überlegungen zur Verwendung von Devin nach einem Monat, in dem mehr als 20 Aufgaben mit Devin ausgeführt wurden

Claude 3.7 Sonnet: Erstes hybrides Reasoning-Modell und Einführung des intelligenten Kodierungswerkzeugs Claude Code

Ehemaliger Leiter des Nachschulungsteams von OpenAI erklärt Methoden und Herausforderungen der Nachschulung, PPT geht viral!

Perplexity führt Echtzeit-Aktienanalysen ein, um Anlegern zu helfen, den Puls der Märkte zu fühlen

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel