Es gibt einen Paradigmenwechsel in der Art und Weise, wie Menschen mit Maschinen interagieren. Dies ist auf die Entwicklung des reinen Dialog-Chatbots zu einem autonomen Agenten mit Händen, Gehirn und Augen zurückzuführen.
Als eines der ersten großen Modellunternehmen, das sich mit dem Thema Agent beschäftigt, bringt Smart Spectrum heute mehrere neue Entwicklungen auf den Tisch:
AutoGLM kann selbständig lange Schritte mit mehr als 50 Aktionen durchführen und auch appübergreifende Aufgaben übernehmen.
AutoGLM eröffnet neues "vollautomatisches" Interneterlebnis, unterstützt Dutzende von Websites und mehr unbemannt
GLM-PC für die Bedienung von Computern wie Menschen Start interner Tests und Erforschung von Techniken zur Implementierung von Universalagenten auf der Grundlage visueller multimodaler Modelle
Auf dem Agent OpenDay schickte AutoGLM "ein rotes WeChat-Paket von KI" an Hunderte von Gästen und befahl Computern aus der Ferne, automatisch Dateien von Mobiltelefonen zu senden.
Der CEO von Wisdom Spectrum, Zhang Peng, braucht nur einen einfachen Sprachbefehl auf der Stelle zu geben. Dies waren ursprünglich sehr komplexe Vorgänge für die Maschine, die heute vollständig durch den Smart Spectrum productised Agent erledigt werden.
Das neue Upgrade von AutoGLM: Die Herausforderung wird komplexer
Der neu aufgerüstete AutoGLM kann bei komplexen Aufgaben gefordert werden:
Länger: Verstehen Sie besonders lange Anweisungen und führen Sie besonders lange Aufgaben aus. Im Beispiel des Einkaufs von Hotpot-Zutaten führt AutoGLM 54 Schritte ohne Unterbrechung autonom aus. Darüber hinaus übertrifft AutoGLM bei dieser langen, mehrstufigen und zyklischen Aufgabe die menschliche Handarbeit.
App-übergreifend: AutoGLM unterstützt die app-übergreifende Ausführung von Aufgaben. Die Benutzer werden sich daran gewöhnen, dass die KI-Verarbeitung automatisch erfolgt, anstatt zwischen mehreren Anwendungen hin und her zu wechseln. Da die derzeitige Form von AutoGLM eher eine Planungsschicht für die APP-Ausführung zwischen Benutzern und Anwendungen ist, ist die app-übergreifende Fähigkeit ein sehr wichtiger Schritt.
Kurze Phrasen: AutoGLM ist in der Lage, benutzerdefinierte Phrasen für lange Aufgaben zu unterstützen. Anstatt AutoGLM lange Befehle zu geben wie "Kauf mir einen Kaffee, Rohkost-Kokosnuss-Latte, Wudaokou-Shop, groß, heiß, leichter Zucker", können Sie einfach sagen: "Kaffee bestellen".
Casual Mode: Wir alle haben Angst davor, Entscheidungen zu treffen, und heute kann AutoGLM Ihnen aktiv helfen, Entscheidungen zu treffen. Im Casual Mode entscheidet die KI über alle Schritte und bietet Ihnen eine Überraschung in Form einer Blindbox. Möchten Sie die Kaffeesorte probieren, die die KI für Sie bestellt?
Gleichzeitig begann AutoGLM mit umfangreichen internen Tests und wird so bald wie möglich als Produkt für C-Support-Benutzer auf den Markt kommen. AutoGLM kündigte auch den Start des Programms "1 Billion APPs Free Auto Upgrade" an und lud App-Partner ein, gemeinsam ihre eigenen neuen Auto-Szenarien zu erkunden.
Die AutoGLM-Muster-APIs, die die Kernszenarien und Kernanwendungen unterstützen, werden innerhalb von zwei Wochen auf der offenen Plattform von Smart Spectrum maas (bigmodel.cn) zur Erprobung verfügbar sein.
Webterminal eröffnet eine neue Erfahrung des "vollautomatischen" Surfens: Ab sofort geht das AutoGLM-Plugin von Wisdom Spectrum online und unterstützt das unbemannte Fahren von Dutzenden von Websites wie Baidu-Suche, Weibo, Zhihu, Github und so weiter. In der Vor-Ort-Demonstration führte das AutoGLM-Plugin automatisch den Prozess der "Suche nach Mango TV in Baidu, dem Öffnen von Little Alley House, dem Abspielen der letzten Episode und dem Senden von Pop-ups, um das Ende einzugeben" durch. Der gesamte Prozess läuft ohne menschliches Zutun ab.
GLM-PC Einladung zum Test: Eine technologische Erkundung für "fahrerlose" Computer
GLM-PC ist eine Technologieexploration des GLM-Teams für "fahrerlose" PCs, die auf Wisdom Spectrums multimodalem Modell, CogAgent, basiert. Die erste Phase der internen Testszenarien ist derzeit offen, einschließlich:
Meeting-Vertretungen: Unterstützung der Nutzer bei der Buchung und Teilnahme an Meetings, Versendung von Meeting-Zusammenfassungen.
Dokumentenverarbeitung: Unterstützung beim Herunterladen von Dokumenten, Versenden von Dokumenten, Verstehen und Zusammenfassen von Dokumenten.
Websuche und Zusammenfassung: Suchen Sie auf bestimmten Plattformen (z. B. WeChat, Zhihu, Xiaohongshu usw.) nach bestimmten Stichwörtern, um die Lektüre und Zusammenfassung zu vervollständigen.
Fern- und zeitgesteuerter Betrieb: Das Mobiltelefon sendet Befehle, der GLM-PC kann den Computerbetrieb selbstständig durchführen; stellen Sie eine zukünftige Zeit ein, um Aufgaben regelmäßig im Startzustand auszuführen.
Unsichtbarer Bildschirm: Während der Benutzer arbeitet, kann der GLM-PC seine Arbeit selbstständig auf dem unsichtbaren Bildschirm erledigen, so dass die Nutzung des Bildschirms nicht beeinträchtigt wird.
Der GLM-PC benutzt einen Computer fast genauso wie ein Mensch - indem er Grafiken und Text mit den Augen betrachtet, mit dem Gehirn plant und dann die Hände benutzt, um Operationen wie Klicken, Doppelklicken, Tippen usw. auszuführen. Deshalb hat der GLM-PC gelernt, jede für den menschlichen Gebrauch konzipierte Anwendung zu benutzen. Aus diesem Grund ist der GLM-PC theoretisch in der Lage, jede für den Menschen konzipierte Anwendung auszuführen, nachdem er sie erlernt hat. Dies ist eine plattformübergreifende Fähigkeit auf Systemebene, die nicht von HTML oder APIs abhängt und eine höhere Fähigkeitsgrenze hat.
Aufgrund der Komplexität des PCs und der Tatsache, dass fast alles, was man am PC macht, eine komplexe Aufgabe ist, sind die Fähigkeiten der heutigen großen Modelle offen gesagt noch weit davon entfernt, ein echter Ersatz für jeden im Büro zu sein. Der GLM-PC in seiner aktuellen Version erfordert immer noch die Eingabe sehr präziser Befehle durch den Benutzer.
GLM-PC "Einladung zum Erleben" ist eröffnet worden. Wir werden weiterhin hart daran arbeiten, das Produkt nach seiner Perfektionierung so schnell wie möglich allen Nutzern zur Verfügung zu stellen, und wir hoffen, dass wir auch mit weiteren Anbietern ein Joint Venture eingehen können.
AutoGLM und GLM-PC sind unsere wichtigen Versuche auf dem Weg zu einem intelligenten KI-Betriebssystem. Sie sind aus Wiseplans Ansammlung von Technologien in den Bereichen große Sprachmodelle, multimodale Modelle, logische Schlussfolgerungen und Werkzeugnutzung entstanden. Von der AgentBench im April 23 bis zum CogAgent-Modell im August hat Wiseplan eineinhalb Jahre lang an der Entwicklung von AutoGLM und dem GLM-PC-Modell CogAgent gearbeitet.
Im Gegensatz zu OpenAI definiert Smart Spectrum fünf Stufen in der Entwicklung des Großen Modells: L1 Sprachliche Kompetenz, L2 Logische Kompetenz (multimodale Kompetenz), L3 Fähigkeit zur Nutzung von Werkzeugen, L4 Selbstlernkompetenz, L5 Erforschung wissenschaftlicher Gesetze.
Bei der bisherigen Entwicklung wurde das Big Model mit einigen der Fähigkeiten der menschlichen Interaktion mit der realen physischen Welt ausgestattet. "Der Agent wird die Fähigkeit von L3, Werkzeuge zu benutzen, erheblich verbessern und gleichzeitig die Erforschung der Fähigkeit von L4, selbst zu lernen, ermöglichen". sagte Zhang Peng.
Zhang Peng sagte, dass das GLM-Team die Entwicklung von Agentenmodellen in Zukunft weiter vorantreiben wird und sich darauf freut, dass das Paradigma, Computer und Mobiltelefone in einem Satz zu bedienen, so bald wie möglich erreicht wird.
Große Modelle von Chat bis Act
Heute verändert die Big-Model-Technologie die Art und Weise, wie Maschinen und Menschen miteinander interagieren. Sie basiert auf dem Verstehen von Bedürfnissen, der Planung und Entscheidungsfindung, der Durchführung von Aktionen und der Selbstreflexion, Agent wird eine intuitive Mensch-Maschine-Interaktion ermöglichen - von der Anpassung der Menschen an die Maschinen bis zur Anpassung der Maschinen an die Menschen.
Unternehmen wie Apple Intelligence, Anthropic (Computer Use), Google (Jarvis) und OpenAI (Operator) haben die agentenbasierte KI ebenfalls als einen wichtigen Schwerpunkt für 2025 identifiziert. Gartner hat die agentenbasierte KI kürzlich als einen der 10 wichtigsten Technologietrends für 2025 aufgeführt und prognostiziert, dass im Jahr 2028 mindestens 15% der täglichen Arbeitsentscheidungen autonom von der agentenbasierten KI getroffen werden, während es im Jahr 2024 noch null waren.
Im Gegensatz zu GenAI sind Agenten zielorientiert und in der Lage, Arbeitsabläufe vollständig auszuführen, sich anzupassen, zu lernen, zu iterieren, mit anderen Systemen und Menschen zusammenzuarbeiten und Aufgaben von Anfang bis Ende zu bewältigen. Nach Ansicht von Zhang Peng kann der Agent als Prototyp des LLM-OS, des Large Model General Operating System, angesehen werden.
"In diesem Stadium ist AutoGLM gleichbedeutend mit dem Hinzufügen einer Ausführungsplanungsschicht zwischen Mensch und Anwendung, was die Form der Mensch-Maschine-Interaktion weitgehend verändert. Noch wichtiger ist, dass wir die Möglichkeit eines LLM-OS sehen, das auf umfangreichen Modellintelligenzfähigkeiten (von L1 bis L4 und darüber hinaus) basiert und die Chance hat, in Zukunft eine native Mensch-Maschine-Interaktion zu ermöglichen. Damit wird das HCI-Paradigma auf die nächste Stufe gehoben."
Ein neues Paradigma für intelligente Geräte im Zeitalter der KI
Mit der Weiterentwicklung der Big-Model-Fähigkeiten sehen wir, wie die KI langsam ihr eigenes Gehirn, ihre Augen und Hände entwickelt. Nicht nur die Intelligenz wächst weiter, sondern auch die Wahrnehmungsfähigkeiten und die Interaktionsbandbreite werden bereichert und erweitert, ebenso wie die beschleunigte Ausführung, die der Agent jetzt bietet.
Zhang Fan, COO von Smart Spectrum, sagte, dass intelligente Geräte mit der Unterstützung von großen Modellen neue Möglichkeiten erhalten werden. Mobiltelefone + KI werden zu persönlichen intelligenten Assistenten, PCs + KI werden zu neuen Produktivitätswerkzeugen, und Autos + KI werden das Auto zu einem intelligenten dritten Lebensraum für die Menschen machen. Natürlich wird das Big Model nicht nur Möglichkeiten für Mobiltelefone, PCs und Autos bieten, sondern auch allen Arten von intelligenten Geräten zugute kommen. Die kontinuierliche Entwicklung des Big Model hat eine solide Grundlage für Agent geschaffen, um die Interaktion zwischen Mensch und Fahrzeug zu verändern.
Mit der kontinuierlichen Verbesserung der Leistung und Rechenleistung auf der Endgeräteseite, den für KI-Geräte angepassten Modellen und der Entstehung einer kollaborativen Architektur mit End-Cloud-Homologie verändert Agent nicht nur das Benutzererlebnis auf Betriebssystemen und Anwendungen, sondern weitet es auch auf alle Arten von intelligenten Geräten aus, von Mobiltelefonen und Computern bis hin zu Autos, Brillen, Häusern und allen Arten von Edge-Geräten, und eine breite Palette von KI-Geräten konkurriert um das Rampenlicht.
Wang Zuo-jian, AI Technical Director von Glory, Zhong Huai-sheng, Head of Intelligent Ecology von ASUS AIPC, Lian Lei, Head of Intelligent Voice/Intelligent Business von Xiaopeng Automobile Cockpit, Wan Satellite, Head of Qualcomm AI Product Technology China, und Gao Yu, General Manager of Technology Department von Intel in China, teilten als Kunden und Partner von Smart Spectrum ihre Erfahrungen und Aussichten zu intelligenten Endgeräten in verschiedenen Szenarien.
Die Entwicklung von Big Model und Agent bringt den Nutzern nicht nur ein neues Paradigma von intelligenten Geräten im Zeitalter der KI, sondern bedeutet auch einen breiteren Raum für die Big Model-Technologie. Von intelligenten Geräten bis hin zu intelligenten Netzwerken werden wir in naher Zukunft die Interkonnektivität und die unendlichen Möglichkeiten von KI-nativen Geräten erleben. In diesem Prozess wird Smart Spectrum auch eine Reihe von Produkten und Funktionen bereitstellen, die intelligenten Geräten dabei helfen, Big Models zu übernehmen und den Übergang zu einer neuen Ära von KI-nativen Geräten zu beschleunigen.
AutoGLM-Anwendungsadresse