AI Personal Learning
und praktische Anleitung

AutoGLM-Web Plugin: Mehr als Computer-Nutzung, AI's 'Phone Use' Moment ist gekommen!

 


Im Vergleich zu Computern begleiten uns Mobiltelefone, die man "nicht aus der Hand legen kann", über einen längeren Zeitraum und sind näher an unserem Leben.

Wenn "Computernutzung" ein neues Paradigma der Mensch-Computer-Interaktion eröffnet, dann geht "Telefonnutzung" noch einen Schritt weiter und eröffnet mehr Anwendungsmöglichkeiten, so dass die KI wirklich allen zugute kommt.

 

Basierend auf den Bemühungen und Erkenntnissen des technischen Teams von GLM im Bereich der Sprachmodellierung, der multimodalen Modellierung und der Nutzung von Werkzeugen bringen wir heute den ersten produktbezogenen intelligenten Körper (Agent) von GLM auf den Markt - AutoGLM, der die menschliche Bedienung eines Mobiltelefons simulieren kann und im Gegenzug durch den Empfang einfacher Text-/Sprachbefehle Hilfe leistet:

Like und schreibe Kommentare zum Freundeskreis deines Chefs" auf WeChat ......
Auf Taobao "kaufen eine bestimmte historische Ordnung Produkt" ......
Buchen Sie Hotels auf Ctrip ......
Zugfahrkarten kaufen auf 12306 ......
Bestellen Sie einen Imbiss auf Meituan ......

Theoretisch kann AutoGLM mit einem tiefen Verständnis von GUIs alles tun, was ein Mensch auf einem visuellen elektronischen Gerät (Computer, Mobiltelefon, Tablet ......) tun kann.

Der Moment der KI, in dem das Telefon benutzt wird, hat uns einen weiteren kleinen Schritt auf dem Weg zur allgemeinen künstlichen Intelligenz (AGI) gebracht.

 

Sie ist nicht auf einfache Aufgabenszenarien oder API-Aufrufe beschränkt und erfordert nicht, dass die Benutzer komplexe und langwierige Arbeitsabläufe manuell erstellen, und die Betriebslogik ähnelt der des Menschen, so dass sie den Menschen im täglichen Leben und bei der Arbeit wirklich unterstützen kann.
Projektadresse: https://xiao9905.github.io/AutoGLM

Dieses Mal werden wir immer noch keine "Futures" veröffentlichen, Sie können also passen:
Chrome oder Edge, um AutoGLM-Web zu erleben, indem Sie das "Wisdom Spectrum"-Plugin installieren, einen Browser-Assistenten, der den Besuch eines Benutzers auf einer Webseite simuliert und auf eine Webseite klickt, mit einem großen Modell, das eine erweiterte Suche, Zusammenfassung und Inhaltsgenerierung auf einer Webseite auf der Grundlage von Benutzerbefehlen automatisiert.
Was die Mobiltelefone betrifft, so steht die erste Charge einigen Qingyin-Nutzern offen (vorerst wird nur das Android-System unterstützt), und Sie sind eingeladen, Anwendungen für interne Tests einzureichen. Es ist erwähnenswert, dass wir auch eine enge Zusammenarbeit mit Mobiltelefonherstellern wie Honor auf der Grundlage von AutoGLM haben.

 

AutoGLM-Technologie

AutoGLM basiert auf dem von Smart Spectrum entwickelten "Decoupled Intermediate Interface for Basic Intelligents" und dem "Self-evolving Online Course Reinforcement Learning Framework", das die Herausforderungen der Intelligenzforschung und -anwendung wie Kapazitätsantagonismus, Knappheit von Trainingsaufgaben und -daten, Knappheit von Feedbacksignalen und Driften der Strategieverteilung bei der Aufgabenplanung und Handlungsausführung großer Modellintelligenzen überwindet, gekoppelt mit selbstadaptiven Lernstrategien, die in einem iterativen Prozess kontinuierlich verbessert werden können, ihre Leistung kontinuierlich und stabil zu verbessern. Genau wie ein Mensch, der im Prozess des Wachstums ständig neue Fähigkeiten erwirbt.

AutoGLM bewältigt zwei zentrale Herausforderungen, wenn große Modelle als Intelligenz verwendet werden:

Herausforderung 1: Unzureichend präzise "Handlungsausführung

Eine der größten Herausforderungen beim Training großer Modellintelligenzen besteht darin, dem Modell beizubringen, die auf dem Bildschirm angezeigten Elemente genau zu manipulieren. Das End-to-End-Training für das gemeinsame Trainieren von "Handlungsausführungs-" und "Aufgabenplanungs"-Fähigkeiten wird durch die hohen Kosten für die Erfassung von Trajektoriendaten und den großen Mangel an Gesamtdaten eingeschränkt, was zu einem unzureichenden Training von Handlungsausführungsfähigkeiten führt, die eine hohe Präzision erfordern.
Um dieses Problem zu lösen, führt AutoGLM das Design der "entkoppelten mittleren Schnittstelle der Basisintelligenz" ein, die die beiden Phasen der "Aufgabenplanung" und der "Handlungsausführung" durch eine natürlichsprachliche mittlere Schnittstelle entkoppelt, wodurch eine große Verbesserung der Intelligenzfähigkeit erreicht wird. Wenn man zum Beispiel einen Imbiss auf einem Mobiltelefon bestellt und auf die Schaltfläche "Bestellung abschicken" klickt, sieht der Vergleich zwischen dem traditionellen und dem "Zwischenschnittstellen"-Schema folgendermaßen aus:

Herausforderung 2: Mangelnde Flexibilität bei der "Einsatzplanung"

Eine weitere große Herausforderung besteht darin, dass GUI-Intelligenzen nur über äußerst begrenzte und kostspielige Trainingsdaten verfügen. Darüber hinaus müssen Intelligenzen die Flexibilität haben, bei komplexen Aufgaben und in realen Umgebungen spontan zu planen und zu korrigieren. Dies lässt sich mit herkömmlichen Trainingsmethoden für große Modelle wie Imitationslernen und überwachte Feinabstimmung (SFT) nicht ohne weiteres erreichen. Zu diesem Zweck haben wir ein "Autoevolutionary Online Course Reinforcement Learning Framework" entwickelt, um die Fähigkeiten großer Modellintelligenzen in realen Online-Umgebungen, sowohl im Web als auch am Telefon, von Grund auf zu erlernen und zu verbessern, wobei Webbrowser als experimentelle Umgebungen verwendet werden. Durch die Einführung einer selbst-evolutionären Lernstrategie prüft, fördert und verbessert sich das Modell kontinuierlich selbst. Durch die Methode des Kursverstärkungslernens passt der Rahmen die Schwierigkeit der Lernaufgabe dynamisch an das Fähigkeitsniveau der Intelligenz in den aktuellen Iterationsrunden an, um das Potenzial des Modells zu maximieren. Durch die Aktualisierung der KL-Dispersionskontrolle und die Wiedergabe des Vertrauens des intelligenten Körpers in die Erfahrung wird das Problem, dass das Modell die vorherigen Lernaufgaben während des iterativen Trainings vergisst, gemildert und vermieden. Die Open-Source-Version von GLM-4-9B, die auf der Grundlage dieser Methode trainiert wurde, kann sich dann im Vergleich zu GPT-4o im WebArena-Lite-Benchmark um mehr als 160% verbessern und erreicht eine Gesamterfolgsrate von 43%.
AutoGLM erreicht signifikante Leistungsverbesserungen sowohl bei der Nutzung per Telefon als auch per Webbrowser durch die kombinierte Anwendung der Wiseplan-eigenen Strategie der "Entkopplung der mittleren Schnittstelle der Basisintelligenzen" und des "sich selbst entwickelnden Online-Kursverstärkungs-Lern-Frameworks". Zum Beispiel übertrifft AutoGLM GPT-4o und Claude-3.5-Sonnet in den AndroidLab-Benchmarks deutlich. Im WebArena-Lite-Benchmark erreicht AutoGLM eine Leistungsverbesserung von etwa 200% gegenüber GPT-4o, wodurch der Abstand zwischen menschlicher und großer Modellintelligenz in Bezug auf den Erfolg bei der GUI-Bedienung erheblich verringert wird.
AutoGLM unterstützt jetzt die automatische Ausführung von Aufgaben für mehrere Anwendungen auf echten Android-Telefonen mit Hilfe einer Android-Anwendung. AutoGLM erbringt zufriedenstellende Leistungen bei der manuellen Bewertung einfacher Aufgaben.

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " AutoGLM-Web Plugin: Mehr als Computer-Nutzung, AI's 'Phone Use' Moment ist gekommen!

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)