AutoGLM-Web Plugin: Mehr als Computergebrauch, AI's 'Phone Use' Moment ist gekommen!

AI-NachrichtenAktualisiert vor 8 Monaten AI-Austauschkreis

1.6K 00

AutoGLM-Web插件：不止 Computer Use，AI 的「Phone Use」时刻也来了

Im Vergleich zu Computern begleiten uns Mobiltelefone, die man "nicht aus der Hand legen kann", über einen längeren Zeitraum und sind näher an unserem Leben.

Wenn "Computernutzung" ein neues Paradigma der Mensch-Computer-Interaktion eröffnet, dann geht "Telefonnutzung" noch einen Schritt weiter und eröffnet mehr Anwendungsmöglichkeiten, so dass die KI wirklich allen zugute kommt.

GLM-PC (Smart Spectrum Bull) ist offiziell zum internen Download freigegeben, die KI, die wirklich den Computer steuern kann

Basierend auf den Bemühungen und Erkenntnissen des technischen Teams von GLM im Bereich der Sprachmodellierung, der multimodalen Modellierung und der Nutzung von Werkzeugen bringen wir heute den ersten produktbezogenen intelligenten Körper (Agent) von GLM auf den Markt - AutoGLM, der die menschliche Bedienung eines Mobiltelefons simulieren kann und im Gegenzug durch den Empfang einfacher Text-/Sprachbefehle Hilfe leistet:

Like und schreibe Kommentare zum Freundeskreis deines Chefs" auf WeChat ......
Auf Taobao "kaufen Sie eine bestimmte historische Bestellung Produkt" ......
Buchen Sie Hotels auf Ctrip ......
Zugfahrkarten kaufen auf 12306 ......
Bestellen Sie einen Imbiss auf Meituan ......

Theoretisch kann AutoGLM mit einem tiefen Verständnis von GUIs alles tun, was ein Mensch auf einem visuellen elektronischen Gerät (Computer, Mobiltelefon, Tablet ......) tun kann.

Der Moment des "Telefonierens" der KI hat uns einen weiteren kleinen Schritt auf dem Weg zur allgemeinen künstlichen Intelligenz (AGI) gebracht.

Sie ist nicht auf einfache Aufgabenszenarien oder API-Aufrufe beschränkt und erfordert nicht, dass die Benutzer komplexe und langwierige Arbeitsabläufe manuell erstellen, die Betriebslogik ist dem Menschen ähnlich und unterstützt ihn wirklich im täglichen Leben und bei der Arbeit.
Projektadresse: https://xiao9905.github.io/AutoGLM

Dieses Mal werden wir immer noch keine "Futures" veröffentlichen, Sie können also passen:
Chrome oder Edge, um AutoGLM-Web zu erleben, indem Sie das "Wisdom Spectrum"-Plugin installieren, einen Browser-Assistenten, der den Besuch eines Benutzers auf einer Webseite simuliert, auf eine Webseite klickt und automatisch eine erweiterte Suche, Zusammenfassung und Inhaltsgenerierung auf einer Webseite basierend auf Benutzerbefehlen in einem großen Modell durchführt.
Was die Mobiltelefone betrifft, so steht die erste Charge einigen Qingyin-Nutzern offen (vorerst wird nur das Android-System unterstützt), und Sie sind herzlich eingeladen, Anwendungen für interne Tests einzureichen. Es ist erwähnenswert, dass wir auch eine enge Zusammenarbeit mit Mobiltelefonherstellern wie Honor auf der Grundlage von AutoGLM haben.

AutoGLM-Technologie

AutoGLM basiert auf dem von Smart Spectrum entwickelten "Decoupled Intermediate Interface for Basic Intelligents" und dem "Self-evolving Online Course Reinforcement Learning Framework", das intelligente Forschungs- und Anwendungsherausforderungen wie Kapazitätsantagonismus, Knappheit von Trainingsaufgaben und -daten, Knappheit von Feedbacksignalen und Driften der Strategieverteilung bei der Aufgabenplanung und Handlungsausführung großer Modellintelligenzen überwindet, gekoppelt mit selbstadaptiven Lernstrategien, die in einem iterativen Prozess kontinuierlich verbessert werden können, ihre Leistung kontinuierlich und stabil zu verbessern. Genau wie ein Mensch, der im Prozess des Wachstums ständig neue Fähigkeiten erwirbt.

AutoGLM bewältigt zwei zentrale Herausforderungen, wenn große Modelle als Intelligenz verwendet werden:

Herausforderung 1: Unzureichend präzise "Handlungsausführung

Eine der größten Herausforderungen beim Training großer Modellintelligenzen besteht darin, dem Modell beizubringen, die auf dem Bildschirm angezeigten Elemente genau zu manipulieren. Das End-to-End-Training für das gemeinsame Trainieren von "Handlungsausführungs-" und "Aufgabenplanungs"-Fähigkeiten wird durch die hohen Kosten für die Erfassung von Trajektoriendaten und den großen Mangel an Gesamtdaten eingeschränkt, was zu einem unzureichenden Training von Handlungsausführungsfähigkeiten führt, die eine hohe Präzision erfordern.
Um dieses Problem zu lösen, führt AutoGLM das Design der "entkoppelten mittleren Schnittstelle der Basisintelligenz" ein, die die beiden Phasen der "Aufgabenplanung" und der "Handlungsausführung" durch eine natürlichsprachliche mittlere Schnittstelle entkoppelt, wodurch eine große Verbesserung der Intelligenzfähigkeit erreicht wird. Wenn man zum Beispiel einen Imbiss auf einem Mobiltelefon bestellt und auf die Schaltfläche "Bestellung abschicken" klickt, sieht der Vergleich zwischen dem traditionellen und dem "Zwischenschnittstellen"-Schema folgendermaßen aus:

Herausforderung 2: Mangelnde Flexibilität bei der "Einsatzplanung"

Eine weitere große Herausforderung besteht darin, dass GUI-Intelligenzen nur über äußerst begrenzte und kostspielige Trainingsdaten verfügen. Darüber hinaus müssen Intelligenzen die Flexibilität haben, bei komplexen Aufgaben und in realen Umgebungen spontan zu planen und zu korrigieren. Dies lässt sich mit herkömmlichen Trainingsmethoden für große Modelle wie Imitationslernen und überwachte Feinabstimmung (SFT) nicht ohne weiteres erreichen. Zu diesem Zweck haben wir ein "Autoevolutionäres Online-Kurs-Reinforcement-Learning-Framework" entwickelt, um die Fähigkeiten großer Modellintelligenzen von Grund auf in realen Online-Umgebungen zu erlernen und zu verbessern, sowohl im Web als auch am Telefon, wobei Webbrowser als experimentelle Umgebungen verwendet werden. Durch die Einführung einer selbst-evolutionären Lernstrategie prüft, fördert und verbessert sich das Modell kontinuierlich selbst. Durch die Methode des Kursverstärkungslernens passt der Rahmen die Schwierigkeit der Lernaufgabe dynamisch an das Fähigkeitsniveau der Intelligenz in den aktuellen Iterationsrunden an, um das Potenzial des Modells zu maximieren. Und durch die Aktualisierung der KL-Dispersionskontrolle und die Wiedergabe der Erfahrung mit dem intelligenten Körper entschärfen und vermeiden wir das Problem, dass das Modell die zuvor gelernten Aufgaben während des iterativen Trainings vergisst. Die Open-Source-Version von GLM-4-9B, die auf der Grundlage dieser Methode trainiert wurde, kann sich dann im Vergleich zu GPT-4o im WebArena-Lite-Benchmark um mehr als 160% verbessern und erreicht eine Gesamterfolgsrate von 43%.
AutoGLM erreicht signifikante Leistungsverbesserungen sowohl bei der Nutzung per Telefon als auch per Webbrowser durch die kombinierte Anwendung der Wiseplan-eigenen Strategie der "Entkopplung der mittleren Schnittstelle der grundlegenden Intelligenzen" und des "sich selbst entwickelnden Online-Kursverstärkungs-Lernrahmens". Zum Beispiel übertrifft AutoGLM GPT-4o und Claude-3.5-Sonnet in den AndroidLab-Benchmarks deutlich. AutoGLM-Web插件：不止 Computer Use，AI 的「Phone Use」时刻也来了 Im WebArena-Lite-Benchmark erreicht AutoGLM eine Leistungsverbesserung von etwa 200% gegenüber GPT-4o, wodurch der Abstand zwischen menschlicher und großer Modellintelligenz in Bezug auf den Erfolg bei der GUI-Bedienung erheblich verringert wird.
AutoGLM-Web插件：不止 Computer Use，AI 的「Phone Use」时刻也来了 AutoGLM unterstützt jetzt die automatische Ausführung von Aufgaben für mehrere Anwendungen auf echten Android-Telefonen mit Hilfe einer Android-Anwendung. AutoGLM erbringt zufriedenstellende Leistungen bei der manuellen Bewertung einfacher Aufgaben.
AutoGLM-Web插件：不止 Computer Use，AI 的「Phone Use」时刻也来了

AI-Nachrichten

文章版权归 AI-Austauschkreis 所有，未经允许请勿转载。

Die KI-Suchmaschine Perplexity wird demnächst einen neuen Browser namens Comet auf den Markt bringen.

AI-Nachrichten

vor 5 Monaten

01.2K

全新 Qwen2.5-VL-32B-Instruct 多模态模型发布，性能超72B！

Neues Qwen2.5-VL-32B-Instruct Multi-Modal Modell mit Super 72B Leistung veröffentlicht!

AI-Nachrichten

vor 5 Monaten

01.3K

Universelle AI-Grundbildung in Grund- und Sekundarschulen bis 2030? Wie sieht der Bildungssektor dies

AI-Nachrichten

vor 7 Monaten

01.3K

Claude 3.7 Sonnet：首创混合推理模式并推出智能编码工具 Claude Code

Claude 3.7 Sonnet: Erstes hybrides Reasoning-Modell und Einführung des intelligenten Kodierungswerkzeugs Claude Code

AI-Nachrichten

vor 6 Monaten

02K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

AutoGLM-Web Plugin: Mehr als Computergebrauch, AI's 'Phone Use' Moment ist gekommen!

AutoGLM-Technologie

Mochi 1 Videogenerierungsmodell: SOTA in Open-Source-Videogenerierungsmodellen

Die aktualisierte Claude 3.5 Sonnet Chinese Benchmark Auswertung ist da! Code-Fähigkeit übertrifft GPT-4o, logisches Denken höherer Ordnung ist nicht so gut wie o1

Ähnliche Artikel

Die KI-Suchmaschine Perplexity wird demnächst einen neuen Browser namens Comet auf den Markt bringen.

Neues Qwen2.5-VL-32B-Instruct Multi-Modal Modell mit Super 72B Leistung veröffentlicht!

Universelle AI-Grundbildung in Grund- und Sekundarschulen bis 2030? Wie sieht der Bildungssektor dies

Claude 3.7 Sonnet: Erstes hybrides Reasoning-Modell und Einführung des intelligenten Kodierungswerkzeugs Claude Code

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

AutoGLM-Web Plugin: Mehr als Computergebrauch, AI's 'Phone Use' Moment ist gekommen!

AutoGLM-Technologie

Mochi 1 Videogenerierungsmodell: SOTA in Open-Source-Videogenerierungsmodellen

Die aktualisierte Claude 3.5 Sonnet Chinese Benchmark Auswertung ist da! Code-Fähigkeit übertrifft GPT-4o, logisches Denken höherer Ordnung ist nicht so gut wie o1

Ähnliche Artikel

Die KI-Suchmaschine Perplexity wird demnächst einen neuen Browser namens Comet auf den Markt bringen.

Neues Qwen2.5-VL-32B-Instruct Multi-Modal Modell mit Super 72B Leistung veröffentlicht!

Universelle AI-Grundbildung in Grund- und Sekundarschulen bis 2030? Wie sieht der Bildungssektor dies

Claude 3.7 Sonnet: Erstes hybrides Reasoning-Modell und Einführung des intelligenten Kodierungswerkzeugs Claude Code

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel