GLM-PC ist der weltweit erste öffentlich zugängliche, schlüsselfertige Computeragent, der auf dem multimodalen Modell CogAgent basiert. Er kann den Computer wie ein Mensch "beobachten" und "bedienen" und den Benutzern helfen, verschiedene Computeraufgaben effizient zu erledigen.
Seit der Veröffentlichung von GLM-PC v1.0 am 29. November 2024 und seiner offenen Betaversion haben wir die Software weiter optimiert und verbessert, zuletzt durch die Einführung des "Deep Thinking"-Modus und die Hinzufügung von Funktionen für logisches Denken und Codegenerierung. Darüber hinaus wurde dieWir bieten auch Unterstützung für Windows-Systeme.
Download & Erlebnis: https://cogagent.aminer.cn
GLM-PC Architektur
In den letzten Jahren wurde das Thema Agent zunehmend auf der Ebene von Modellen und Architekturen diskutiert.
Die Fähigkeit von Large Language Models (LLMs), Werkzeuge aufzurufen, zeigt zum ersten Mal, wie LLMs als Agenten eingesetzt werden können, die organisch in die menschliche Produktion integriert sind und über gute Generalisierungs- und Lernfähigkeiten für kleine Stichproben verfügen, aber ihr Anwendungsbereich ist durch die Arten von öffentlich zugänglichen Werkzeugen begrenzt, mit denen in Textform interagiert werden kann.
Eine Reihe von Visual Language Model (VLM)-basierten Graphical Interface Intelligents (GUI-Agenten), die durch CogAgent repräsentiert werden, schlagen neue Wege vor, um eine vollständige räumliche GUI-Interaktion durch multimodale Wahrnehmung zu erreichen. Diese menschenähnlichen GUI-Agenten können Schnittstellenelemente und -layouts visuell wahrnehmen und den Menschen simulieren, um Metaoperationen wie Klicken und Tastatureingaben auszuführen, was die Grenzen der Anwendung des Agenten im virtuellen Interaktionsraum erheblich erweitert.
Gleichzeitig zeigen Multiagentensysteme wie SWE-Agent das Potenzial für die Zusammenarbeit von Multiagenten auf, indem sie die Stärken verschiedener Modelle nutzen, um eine auf mehreren Modellen basierende Planung, Reflexion und Selbstinitiation zu erforschen.
Wir glauben, dass die Entwicklung der Agenten auf die Verbesserung der Modellfähigkeit und die Optimierung der Kooperationsarchitektur zurückzuführen ist.
Ein vollständiger Agent muss die folgenden Bedingungen erfüllen:
- Auf der Wahrnehmungsebene ist es in der Lage, mehrere Signale wie Text, Bilder, Video und Audio zu empfangen;
- Auf der Ebene des Denkens die Fähigkeit, logisch zu denken und Aufgaben zu planen (ähnlich wie die linke Gehirnhälfte) und die Fähigkeit, effizient wahrzunehmen und flexibel zu handeln (ähnlich wie die rechte Gehirnhälfte);
- Auf der Ausführungsebene die Fähigkeit, vollständige GUI-Raumfahrtoperationen durchzuführen, Umgebungsrückmeldungen zu erhalten und sich selbst zu korrigieren.
Auf der Grundlage dieser Überlegungen haben wir im Jahr 2023 das Open-Source-Modell CogAgent eingeführt, das die Lücke des GUI-Agenten in der multimodalen Wahrnehmung schließt. Im November 2024 wurde GLM-PC v1.0 veröffentlicht, das die Wahrnehmungs-, Planungs- und Erstellungsfähigkeiten weiter verbessert und eine begrenzte Selbstkorrektur ermöglicht.
Die neue Version von GLM-PC nutzt die Arbeitsteilung zwischen der "linken Gehirnhälfte" und der "rechten Gehirnhälfte" des Menschen und erreicht durch die Codegenerierung und das Verstehen von grafischen Oberflächen eine tiefgreifende Kombination aus logischem Denken und Wahrnehmungsfähigkeit, die es ermöglicht, ein Gleichgewicht zwischen Logik und Kreativität herzustellen, um den Menschen bei der Bewältigung komplexer Aufgaben zu unterstützen.
Dahinter steht die tiefe Integration von CogAgent, einem von Smart Spectrum unabhängig entwickelten multimodalen Modell, und CodeGeex, einem Code-Modell. Die neue Version von GLM-PC steuert den Arbeitsablauf und den Aufruf von Werkzeugen in Form von Code und stärkt die Planungs-, Denk- und Reflexionsfähigkeiten im Deep-Thinking-Modus, so dass es auf komplexe Szenarien und Aufgaben stabil und effizient reagieren kann. Während der eigentlichen Ausführung ist GLM-PC in der Lage, mehrschichtiges Umgebungsfeedback zu erfassen und die Reflexion für eine effektive Selbstkorrektur und Optimierung zu unterstützen.
Es ist erwähnenswert, dass wir das vollständig verbesserte Modell CogAgent-9B-20241220 im Dezember 2024 als Open Source zur Verfügung gestellt haben, um die Forschung an vortrainierten GUI-Agenten zu erleichtern.
Agent Linke Gehirnhälfte: Code-Erzeugung und Logik-Ausführung
Die "linke Gehirnhälfte" des GLM-PCs ist für strenges logisches Denken und die Ausführung von Aufgaben zuständig. Zu ihren Hauptfunktionen gehören:
1. die Planung
GLM-PC ist in der Lage, schnell ein detailliertes Aufgabenplanungsprogramm auf der Grundlage der Aufgabenanforderungen des Benutzers zu entwickeln. Es analysiert umfassend die Ziele sowie die verfügbaren Ressourcen, erstellt einen Ausführungsplan und zerlegt große Aufgaben automatisch in überschaubare Teilaufgaben, um einen klaren Ausführungspfad zu erstellen.
2、Looping-Ausführung (Looping-Ausführung)
Am Ende der Planungsphase startet der GLM-PC das Modul zur Codegenerierung, um eine logische Schleife auszuführen, die Schritt für Schritt auf die Fertigstellung der Aufgabe zusteuert. Dieser Schleifenmechanismus gewährleistet eine präzise Ausführung der Aufgabe mit einem hohen Automatisierungsgrad, was zu einer vollständigen geschlossenen Schleife von der Eingabe bis zur Ausgabe ohne menschliches Eingreifen führt.
Fallstudie: One-Stop-Shopping-Prozess
Am Beispiel von Produktinformationen kann GLM-PC automatisch Produktdaten aus Bildern extrahieren, in Excel speichern und die Produkte automatisch in den Taobao-Einkaufswagen legen, um so einen One-Stop-Shopping-Prozess zu realisieren.
Anleitung: Holen Sie sich die Produktinformationen auf dem Bild, erstellen Sie eine neue Excel-Datei auf dem Desktop, um die Informationen zu speichern, und fügen Sie die Produktinformationen in den Taobao-Warenkorb.
(Eine gewisse Beschleunigung des Videos im Text.)
3. lange Denkfähigkeit: dynamische Reflexion, Fehlerkorrektur und Optimierung
Die "linke Gehirnhälfte" von GLM-PC generiert nicht nur einen statischen Plan, sondern optimiert die Lösung kontinuierlich durch Echtzeitanpassungen, reflektierende Korrekturen und Selbstkorrekturen auf der Grundlage neuer Umgebungsinformationen während des Ausführungsprozesses. Die spezifische Leistung ist wie folgt:
- Flexibilität bei Unterbrechungen: Wenn der Prozess durch externe Faktoren unterbrochen wird, konfiguriert der GLM-PC den logischen Pfad schnell neu, um einen reibungslosen Ablauf der Aufgabe zu gewährleisten.
- Proaktive Informationsverfeinerung: Wenn fehlende Informationen gefunden werden, interagiert der GLM-PC proaktiv mit dem Benutzer, um den Plan zur Aufgabenausführung durch Fragen zu verfeinern.
Fallstudie: Effiziente Informationsverarbeitung und soziale Interaktion
Wenn der Benutzer beispielsweise die Informationen zum "Frühlingsfest-Neujahrsfilm" auf Xiaohongshu verarbeiten soll, kann GLM-PC die relevanten Daten schnell finden und extrahieren und gleichzeitig den Code zum Speichern der Informationen auf dem Computer schreiben. Wenn der erzeugte Code Fehler enthält, kann er sich selbst entsprechend der Fehlermeldung korrigieren.
Anleitung: Suchen Sie in Xiaohongshu nach "Frühlingsfest-Silvesterfilme", zitieren Sie das Beitragsbild aus dem ersten grafischen Beitrag, senden Sie das Bild an den {GGG}-Gruppenchat auf WeChat und fragen Sie die Teilnehmer, welchen Film sie gerne sehen würden.
Agent Right Brain: Bilder und GUI-Kognition
Die "rechte Gehirnhälfte" von GLM-PC konzentriert sich auf Tiefenwahrnehmung und interaktive Erfahrungen. Seine Kernfunktionen umfassen:
- GUI Image Understanding: Genaue Identifizierung von grafischen Oberflächenelementen (z. B. Schaltflächen, Symbole, Layouts usw.) und Verständnis ihrer Funktion und Interaktionslogik.
- User Behaviour Cognition: Durch die Kombination des Lernens der Benutzeroberfläche und des Verständnisses historischer Betriebsinformationen werden dem Benutzer intelligente Betriebsempfehlungen für die aktuelle Benutzeroberfläche gegeben.
- Semantisches Parsing von Bildern: Eingehende semantische Analyse komplexer Bilder zur Extraktion von Schlüsselinformationen wie Text, Identifikatoren sowie Trends und Indikatoren in Datenvisualisierungsdiagrammen.
- Multimodale Informationsfusion: Verschmelzung von Bild- und Textinformationen zu einem umfassenden Wahrnehmungsergebnis. Zum Beispiel das Erkennen von Tastenpositionen und Textbeschriftungen auf der Benutzeroberfläche, was der "linken Gehirnhälfte" hilft, präzise Operationspläne zu formulieren.
Demonstration: Effiziente Datenorganisation und -archivierung
GLM-PC ist beispielsweise in der Lage, die grafischen Inhalte zum Thema "KI-Ranking" in Xiaohongshu zu suchen und zu extrahieren. Anschließend werden die Unternehmensinformationen mithilfe des selbst geschriebenen Codes in der neu erstellten Excel-Datei auf dem Desktop gespeichert, und der Textinhalt der Beiträge wird in dem angegebenen Word-Dokument gespeichert, was eine effiziente Organisation und Archivierung der Benutzerdaten gewährleistet und die Effizienz der Informationsverwaltung verbessert.
Arbeitsanweisungen: Suchen Sie nach "new energy car list" im ersten Bild- und Textbeitrag auf Xiaohongshu, zitieren Sie den Bild- und Textinhalt des ersten Beitrags, holen Sie sich die Liste der Informationen im Bild und speichern Sie sie im neuen Desktop-Excel, und legen Sie den Textinhalt des Beitrags in ein neues Desktop-Word-Dokument namens new-energy. und fügen Sie den Text des Beitrags in ein neues Word-Dokument mit dem Namen new-energy auf dem Desktop ein.
Agent der Agenten: Zusammenarbeit von linker und rechter Gehirnhälfte
Dieses Modell, das sich auf die Zusammenarbeit zwischen linker und rechter Gehirnhälfte stützt, ermöglicht es GLM-PC, nicht nur komplexe logische Aufgaben zu bewältigen, sondern auch eine höhere Anpassungsfähigkeit, Kreativität und Generalisierung bei Problemen mit offenem Ausgang zu zeigen. Durch dynamische Optimierung und Kontexterkennung kann GLM-PC den Nutzern helfen, effizientere Lösungen zu finden, insbesondere bei der Bearbeitung zyklischer Aufgaben, bei der Ausführung mehrstufiger Argumente und bei der Verwaltung langwieriger Aufgaben.
Fallstudie: Lernhilfe für Englischvokabeln in Klasse 6
GLM-PC kann als Assistent zum Erlernen des englischen Wortschatzes der Klasse 6 automatisch Vokabeln aus bestimmten Websites extrahieren, Sätze auf der Grundlage dieser Vokabeln bilden und die Vokabeln und ihre Sätze automatisch in einem neuen Word-Dokument mit dem Namen "Grade 6 English Vocabulary Learning" speichern.
Finden Sie 3 Vokabeln in dieser "https://www.dxsbb.com/news/277.html" Klasse 6 Vokabeln, dann machen Sie einen Satz für jedes Wort, fügen Sie die Vokabeln und die entsprechenden Sätze in ein neues Word-Dokument und speichern Sie es als "Grade 6 English Vocabulary Study".
Demonstration: Personalisierte WeChat Segenswünsche und Neujahrsglückwünsche als Gruppenbild versenden
GLM-PC ist in der Lage, automatisch personalisierte chinesische Neujahrswünsche und Glückwunschbilder/-videos für WeChat-Gruppenfreunde zu erstellen und sie mit einem Klick als Gruppe zu versenden, um die Festtagsgrüße effizient zu vervollständigen.
Anleitung: Zitieren Sie die Liste der Mitglieder der "GGG"-Gruppe auf WeChat, und senden Sie jedem von ihnen eine Nachricht mit Wünschen für das chinesische Neujahr 2025 und ein Bild mit dem Thema des Jahres der Schlange.
Fallstudie: Intelligente Flugabfrage und Flugplanung
GLM-PC kann den Nutzern schnelle Fluginformationen liefern, die günstigsten Flugtickets anzeigen und sich mit der Einstellung der Flybook-Kalendererinnerung synchronisieren, um einen Service aus einer Hand von der Fluganfrage über die Ticketprüfung bis zur Flugplanung zu bieten.
Anweisungen: Helfen Sie mir, das günstigste Flugticket von Shanghai nach Peking am 21. Januar auf Ctrip zu finden; Helfen Sie mir, einen Flybook-Kalender für 6 Stunden vor dem Flug einzurichten, mit einem Thema des Abflugs zum Flughafen und einer Dauer von einer halben Stunde.
Showcase: Prozess der Extraktion und Organisation von PDF-Mathefragen
GLM-PC öffnet automatisch PDF-Dateien, extrahiert den angegebenen Inhalt und stellt die Informationen zusammen und speichert sie in einem Word-Dokument.
Arbeitsanweisung: Helfen Sie mir, die Datei "Permutation and Binomial Theorem Exercise.pdf" auf dem Desktop zu öffnen, zitieren Sie die ersten Mathefragen, die die aktuelle Schnittstelle zusammenfassen, und fügen Sie sie in ein neues Word-Dokument auf dem Desktop ein.
kollaborativ
Wir streben eine intensive Zusammenarbeit mit renommierten PC-Herstellern wie Lenovo und Asus an, um gemeinsam die Innovation und Entwicklung von AIPC (AI Personal Computer) zu fördern.
AIPC ist nicht nur ein Computer, sondern auch eine neue Anwendung von KI-Agenten im Bereich des Personal Computing, die den Nutzern effizientere und intelligentere Arbeits- und Lebenserfahrungen bieten kann.