Im Vergleich zu Computern begleiten uns Mobiltelefone, die man "nicht aus der Hand legen kann", über einen längeren Zeitraum und sind näher an unserem Leben.
Wenn "Computernutzung" ein neues Paradigma der Mensch-Computer-Interaktion eröffnet, dann geht "Telefonnutzung" noch einen Schritt weiter und eröffnet mehr Anwendungsmöglichkeiten, so dass die KI wirklich allen zugute kommt.
Basierend auf den Bemühungen und Erkenntnissen des technischen Teams von GLM im Bereich der Sprachmodellierung, der multimodalen Modellierung und der Nutzung von Werkzeugen bringen wir heute den ersten produktbezogenen intelligenten Körper (Agent) von GLM auf den Markt - AutoGLM, der die menschliche Bedienung eines Mobiltelefons simulieren kann und im Gegenzug durch den Empfang einfacher Text-/Sprachbefehle Hilfe leistet:
Like und schreibe Kommentare zum Freundeskreis deines Chefs" auf WeChat ......
Auf Taobao "kaufen eine bestimmte historische Ordnung Produkt" ......
Buchen Sie Hotels auf Ctrip ......
Zugfahrkarten kaufen auf 12306 ......
Bestellen Sie einen Imbiss auf Meituan ......
Theoretisch kann AutoGLM mit einem tiefen Verständnis von GUIs alles tun, was ein Mensch auf einem visuellen elektronischen Gerät (Computer, Mobiltelefon, Tablet ......) tun kann.
Sie ist nicht auf einfache Aufgabenszenarien oder API-Aufrufe beschränkt und erfordert nicht, dass die Benutzer komplexe und langwierige Arbeitsabläufe manuell erstellen, und die Betriebslogik ähnelt der des Menschen, so dass sie den Menschen im täglichen Leben und bei der Arbeit wirklich unterstützen kann.
Projektadresse: https://xiao9905.github.io/AutoGLM
Dieses Mal werden wir immer noch keine "Futures" veröffentlichen, Sie können also passen:
Chrome oder Edge, um AutoGLM-Web zu erleben, indem Sie das "Wisdom Spectrum"-Plugin installieren, einen Browser-Assistenten, der den Besuch eines Benutzers auf einer Webseite simuliert und auf eine Webseite klickt, mit einem großen Modell, das eine erweiterte Suche, Zusammenfassung und Inhaltsgenerierung auf einer Webseite auf der Grundlage von Benutzerbefehlen automatisiert.
Was die Mobiltelefone betrifft, so steht die erste Charge einigen Qingyin-Nutzern offen (vorerst wird nur das Android-System unterstützt), und Sie sind eingeladen, Anwendungen für interne Tests einzureichen. Es ist erwähnenswert, dass wir auch eine enge Zusammenarbeit mit Mobiltelefonherstellern wie Honor auf der Grundlage von AutoGLM haben.
AutoGLM-Technologie
AutoGLM basiert auf dem von Smart Spectrum entwickelten "Decoupled Intermediate Interface for Basic Intelligents" und dem "Self-evolving Online Course Reinforcement Learning Framework", das die Herausforderungen der Intelligenzforschung und -anwendung wie Kapazitätsantagonismus, Knappheit von Trainingsaufgaben und -daten, Knappheit von Feedbacksignalen und Driften der Strategieverteilung bei der Aufgabenplanung und Handlungsausführung großer Modellintelligenzen überwindet, gekoppelt mit selbstadaptiven Lernstrategien, die in einem iterativen Prozess kontinuierlich verbessert werden können, ihre Leistung kontinuierlich und stabil zu verbessern. Genau wie ein Mensch, der im Prozess des Wachstums ständig neue Fähigkeiten erwirbt.
AutoGLM bewältigt zwei zentrale Herausforderungen, wenn große Modelle als Intelligenz verwendet werden:
Herausforderung 1: Unzureichend präzise "Handlungsausführung
Eine der größten Herausforderungen beim Training großer Modellintelligenzen besteht darin, dem Modell beizubringen, die auf dem Bildschirm angezeigten Elemente genau zu manipulieren. Das End-to-End-Training für das gemeinsame Trainieren von "Handlungsausführungs-" und "Aufgabenplanungs"-Fähigkeiten wird durch die hohen Kosten für die Erfassung von Trajektoriendaten und den großen Mangel an Gesamtdaten eingeschränkt, was zu einem unzureichenden Training von Handlungsausführungsfähigkeiten führt, die eine hohe Präzision erfordern.
Um dieses Problem zu lösen, führt AutoGLM das Design der "entkoppelten mittleren Schnittstelle der Basisintelligenz" ein, die die beiden Phasen der "Aufgabenplanung" und der "Handlungsausführung" durch eine natürlichsprachliche mittlere Schnittstelle entkoppelt, wodurch eine große Verbesserung der Intelligenzfähigkeit erreicht wird. Wenn man zum Beispiel einen Imbiss auf einem Mobiltelefon bestellt und auf die Schaltfläche "Bestellung abschicken" klickt, sieht der Vergleich zwischen dem traditionellen und dem "Zwischenschnittstellen"-Schema folgendermaßen aus:
Herausforderung 2: Mangelnde Flexibilität bei der "Einsatzplanung"
Eine weitere große Herausforderung besteht darin, dass GUI-Intelligenzen nur über äußerst begrenzte und kostspielige Trainingsdaten verfügen. Darüber hinaus müssen Intelligenzen die Flexibilität haben, bei komplexen Aufgaben und in realen Umgebungen spontan zu planen und zu korrigieren. Dies lässt sich mit herkömmlichen Trainingsmethoden für große Modelle wie Imitationslernen und überwachte Feinabstimmung (SFT) nicht ohne weiteres erreichen. Zu diesem Zweck haben wir ein "Autoevolutionary Online Course Reinforcement Learning Framework" entwickelt, um die Fähigkeiten großer Modellintelligenzen in realen Online-Umgebungen, sowohl im Web als auch am Telefon, von Grund auf zu erlernen und zu verbessern, wobei Webbrowser als experimentelle Umgebungen verwendet werden. Durch die Einführung einer selbst-evolutionären Lernstrategie prüft, fördert und verbessert sich das Modell kontinuierlich selbst. Durch die Methode des Kursverstärkungslernens passt der Rahmen die Schwierigkeit der Lernaufgabe dynamisch an das Fähigkeitsniveau der Intelligenz in den aktuellen Iterationsrunden an, um das Potenzial des Modells zu maximieren. Durch die Aktualisierung der KL-Dispersionskontrolle und die Wiedergabe des Vertrauens des intelligenten Körpers in die Erfahrung wird das Problem, dass das Modell die vorherigen Lernaufgaben während des iterativen Trainings vergisst, gemildert und vermieden. Die Open-Source-Version von GLM-4-9B, die auf der Grundlage dieser Methode trainiert wurde, kann sich dann im Vergleich zu GPT-4o im WebArena-Lite-Benchmark um mehr als 160% verbessern und erreicht eine Gesamterfolgsrate von 43%.
AutoGLM erreicht signifikante Leistungsverbesserungen sowohl bei der Nutzung per Telefon als auch per Webbrowser durch die kombinierte Anwendung der Wiseplan-eigenen Strategie der "Entkopplung der mittleren Schnittstelle der Basisintelligenzen" und des "sich selbst entwickelnden Online-Kursverstärkungs-Lern-Frameworks". Zum Beispiel übertrifft AutoGLM GPT-4o und Claude-3.5-Sonnet in den AndroidLab-Benchmarks deutlich. Im WebArena-Lite-Benchmark erreicht AutoGLM eine Leistungsverbesserung von etwa 200% gegenüber GPT-4o, wodurch der Abstand zwischen menschlicher und großer Modellintelligenz in Bezug auf den Erfolg bei der GUI-Bedienung erheblich verringert wird.
AutoGLM unterstützt jetzt die automatische Ausführung von Aufgaben für mehrere Anwendungen auf echten Android-Telefonen mit Hilfe einer Android-Anwendung. AutoGLM erbringt zufriedenstellende Leistungen bei der manuellen Bewertung einfacher Aufgaben.