Originaltext:Generell fähige Agenten in Welten mit offenem Ende [S62816]
1. reflexive Intelligenz
- Möglichkeit, den selbst erstellten Code oder Inhalt zu überprüfen, zu ändern und iterativ zu optimieren
- Durch Selbstreflexion und Überarbeitung können qualitativ bessere Ergebnisse erzielt werden.
- Es handelt sich um eine robuste und effektive Technologie, die für eine Vielzahl von Anwendungen geeignet ist.
2. die Nutzung instrumenteller Intelligenzen
- Fähigkeit, eine Vielzahl von Instrumenten zu nutzen, um Informationen zu sammeln, zu analysieren und Maßnahmen zu ergreifen und so das Anwendungsspektrum zu erweitern
- Frühe Forschungen zur Verwendung von Werkzeugen stammen hauptsächlich aus dem Bereich der Computer Vision, wo Sprachmodelle noch nicht in der Lage waren, Bilder zu verarbeiten.
3. die Planung der Intelligenz
- Zeigt eine erstaunliche Fähigkeit, selbstständig Pläne auf der Grundlage von Aufgabenzielen zu entwickeln und auszuführen.
- Wenn ein Schritt fehlschlägt, die Fähigkeit, den Weg zu ändern, um ein Scheitern zu vermeiden, mit einem gewissen Maß an Autonomie und Anpassungsfähigkeit.
- Es ist noch nicht ganz zuverlässig, aber wenn es funktioniert, ist es schon erstaunlich.
4. kollaborative Multiintelligenz
- Indem man die Intelligenzen mit unterschiedlichen Rollen ausstattet und sie gemeinsam an der Erfüllung von Aufgaben arbeiten lässt, können sie stärkere Fähigkeiten zeigen als eine einzelne Intelligenz.
- Multiintelligenzia kann einen intensiven Dialog und Arbeitsteilung führen, um komplexe Entwicklungs- oder Kreativaufgaben zu bewältigen.
- Es ist auch möglich, dass mehrere Intelligenzen miteinander diskutieren, was die Leistung des Modells effektiv verbessert.
Ich freue mich darauf, meine Erkenntnisse über KI-Intelligenzen mitzuteilen, die ich für einen spannenden Trend halte, den jeder, der sich mit KI-Entwicklung beschäftigt, im Auge behalten sollte. Außerdem freue ich mich auf alle "Zukunftstrends", die vorgestellt werden.
Lassen Sie uns also über KI-Intelligenz sprechen. Die meisten von uns verwenden Big Language Modelling auf folgende Weise: In einem Arbeitsablauf ohne Intelligenz geben wir eine Eingabeaufforderung ein und erhalten dann eine Antwort. Das ist in etwa so, wie wenn man jemanden bittet, einen Artikel über ein bestimmtes Thema zu schreiben, und ich sage, man setzt sich einfach an die Tastatur und tippt ihn in einem Zug ein, als ob es keine Rücktaste gäbe. Trotz der Schwierigkeit dieser Aufgabe schneidet das große Sprachmodell erstaunlich gut ab.
Im Gegensatz dazu könnte ein Arbeitsablauf mit KI-Intelligenzen wie folgt aussehen. Lassen Sie eine KI oder ein großes Sprachmodell eine Gliederung für einen Artikel schreiben. Müssen Sie etwas online nachschlagen? Wenn ja, dann schlagen Sie es nach. Dann schreiben Sie einen ersten Entwurf und lesen den ersten Entwurf, den Sie selbst geschrieben haben, und überlegen, welche Teile geändert werden müssen. Dann überarbeiten Sie Ihren ersten Entwurf und fahren fort. Dieser Arbeitsablauf ist also iterativ: Sie können das große Sprachmodell zum Nachdenken anregen, dann den Artikel überarbeiten, dann noch einmal nachdenken und so weiter. Nur wenige wissen, dass die Ergebnisse auf diese Weise besser sind. Ich habe mich selbst von den Ergebnissen der Arbeitsabläufe dieser KI-Intelligenzen überrascht.
Ich werde eine Fallstudie durchführen. Mein Team analysierte einige Daten anhand eines Programmier-Benchmarks namens Human Evaluation Benchmark, der vor einigen Jahren von OpenAI veröffentlicht wurde. Dieser Benchmark besteht aus Programmierproblemen wie der Suche nach der Summe aller ungeraden Elemente oder Elemente an ungeraden Positionen bei einer nicht leeren Liste von ganzen Zahlen. Die Antwort könnte ein Codeschnipsel wie der folgende sein. Viele von uns verwenden Nullproben-Hinweise, d. h. wir sagen der KI, dass sie den Code schreiben soll, und lassen ihn dann auf einmal ausführen. Wer würde so programmieren? Niemand tut das. Wir schreiben einfach den Code und lassen ihn laufen. Vielleicht machen Sie das. Ich kann es nicht.
Wenn man also GPT 3.5 für Zero-Sample-Cueing verwendet, kommt man auf 481 TP3 T. GPT-4 schneidet mit 671 TP3 T viel besser ab. Wenn man aber einen Arbeitsablauf mit KI-Intelligenz auf GPT 3.5 aufbaut, kann es noch besser abschneiden als GPT-4. Wenn Sie diesen Arbeitsablauf auf GPT-4 anwenden, sind die Ergebnisse ebenfalls sehr gut. Sie werden feststellen, dass GPT 3.5 mit dem KI-Intelligenz-Workflow tatsächlich besser ist als GPT-4, was bedeutet, dass es einen großen Einfluss auf die Art und Weise haben wird, wie wir Anwendungen erstellen.
Der Begriff KI-Intelligenz ist in aller Munde, und es gibt viele Beratungsberichte, in denen über KI-Intelligenz, die Zukunft der KI usw. diskutiert wird. Ich möchte mit Ihnen einige der gemeinsamen Entwurfsmuster, die ich bei KI-Intelligenzen sehe, näher erläutern. Es ist ein komplexes und verwirrendes Feld mit viel Forschung und vielen Open-Source-Projekten. Es gibt eine Menge Dinge, die hier passieren. Aber ich versuche, einen sachdienlicheren Überblick darüber zu geben, was bei KI-Intelligenzen vor sich geht.
Reflexion ist ein Instrument, das meiner Meinung nach die meisten von uns nutzen sollten. Es funktioniert. Ich denke, sie sollte häufiger eingesetzt werden. Es ist wirklich eine sehr robuste Technik. Wenn ich sie einsetze, funktioniert sie immer. Was die Planung und die Zusammenarbeit mit mehreren Geheimdiensten angeht, so denke ich, dass es sich um ein neues Feld handelt. Wenn ich sie einsetze, bin ich manchmal überrascht, wie gut sie funktionieren. Aber zumindest im Moment bin ich mir nicht sicher, ob ich sie immer konsequent einsetzen kann. Lassen Sie mich diese vier Entwurfsmuster auf den nächsten Folien näher erläutern. Wenn Sie sie selbst ausprobieren oder Ihre Ingenieure dazu bringen, diese Muster zu verwenden, werden Sie sehr schnell Produktivitätssteigerungen feststellen.
Was die Reflexion betrifft, hier ein Beispiel. Nehmen wir an, ich bitte ein System, eine Aufgabe für mich zu programmieren. Und dann haben wir eine Programmierintelligenz, die ihm einfach eine Aufforderung gibt, die Aufgabe zu kodieren, zum Beispiel eine Funktion zu definieren, die die Aufgabe ausführt, eine Funktion wie diese zu schreiben. Ein Beispiel für Selbstreflexion ist, dass man das große Sprachmodell so auffordern kann. Hier ist ein Stück Code, das für eine bestimmte Aufgabe geschrieben wurde. Dann legen Sie ihm genau denselben Code vor, den es gerade erzeugt hat. Bitten Sie es dann, diesen Code auf seine Korrektheit, Effizienz und gute Struktur zu überprüfen, indem Sie ihm Fragen wie diese stellen. Die Ergebnisse zeigen, dass dasselbe große Sprachmodell, das Sie zuvor für den Code angefordert haben, in der Lage sein könnte, ein Problem wie den Fehler in Zeile 5 zu finden und zu beheben. Und so weiter. Wenn Sie ihm jetzt wieder sein eigenes Feedback geben, erstellt es vielleicht Version zwei des Codes, die besser funktioniert als die erste Version. Es gibt keine Garantien, aber in den meisten Fällen ist dieser Ansatz in vielen Anwendungen einen Versuch wert. Wenn Sie ihn bitten, Unit-Tests durchzuführen, und er die Unit-Tests nicht besteht, können Sie ihn fragen, warum er die Unit-Tests nicht bestanden hat, um dies im Voraus zu erfahren. Mit diesem Dialog können wir vielleicht herausfinden, warum er die Unit-Tests nicht bestanden hat, also sollten Sie versuchen, etwas zu ändern und eine V3-Version des Codes zu erzeugen. Übrigens, für diejenigen unter Ihnen, die mehr über diese Techniken erfahren wollen, bin ich sehr begeistert. Für jeden Teil der Präsentation habe ich am Ende einige Leseempfehlungen angegeben, die hoffentlich weitere Hinweise geben.
Um noch einmal eine Vorschau auf das System des multi-intelligenten Körpers zu geben, beschreibe ich einen programmierenden intelligenten Körper, den Sie auffordern können, diesen Dialog mit sich selbst zu führen. Eine natürliche Weiterentwicklung dieser Idee ist, dass man statt nur einer programmierenden Intelligenz zwei Intelligenzen einrichten könnte, eine programmierende Intelligenz und eine überprüfende Intelligenz. Diese könnten auf demselben großen Sprachmodell basieren, nur mit unterschiedlichen Hinweisen, die wir geben. Der einen Seite sagen wir: Du bist ein Programmierungsexperte, schreibe Code. Der anderen Seite sagen wir: Du bist ein Experte für die Überprüfung von Code, bitte überprüfe diesen Code. Das ist eigentlich ein sehr einfach zu implementierender Arbeitsablauf. Ich denke, es ist eine sehr vielseitige Technik, die an eine Vielzahl von Arbeitsabläufen angepasst werden kann. Sie wird die Leistung des großen Sprachmodells erheblich verbessern.
Das zweite Entwurfsmuster ist die Verwendung von Werkzeugen. Viele von Ihnen haben vielleicht gesehen, wie Systeme, die auf großen Sprachmodellen basieren, Werkzeuge verwenden. Links sehen Sie einen Screenshot aus dem Co-Pilot, und rechts sehen Sie einen Teil dessen, was ich aus GPT-4 entnommen habe. Wenn Sie jedoch ein heutiges großes Sprachmodell bitten, eine Frage wie die nach dem besten Kopierer für eine Websuche zu beantworten, wird es Code erzeugen und ausführen. Tatsächlich gibt es viele verschiedene Tools, die von vielen Menschen verwendet werden, um Analysen durchzuführen, Informationen zu sammeln, Maßnahmen zu ergreifen und die persönliche Effizienz zu verbessern.
Ein großer Teil der frühen Forschungsarbeiten zum Einsatz von Werkzeugen stammt aus der Computer Vision Community. Der Grund dafür ist, dass vor dem Aufkommen großer Sprachmodelle diese keine Bilder verarbeiten konnten. Die einzige Möglichkeit bestand also darin, das große Sprachmodell eine Funktion generieren zu lassen, die Bilder manipulieren konnte, z. B. Bilder erzeugen oder eine Objekterkennung durchführen. Wenn Sie sich die Literatur genau ansehen, werden Sie feststellen, dass ein Großteil der Forschung über die Verwendung von Werkzeugen aus dem Bereich der Bildverarbeitung stammt, denn vor der Einführung von GPT-4 und LLaVA usw. wussten die großen Sprachmodelle nichts über Bilder. Hier kommt der Einsatz von Werkzeugen ins Spiel und erweitert den Anwendungsbereich von großen Sprachmodellen.
Der nächste Punkt ist die Planung. Für diejenigen unter Ihnen, die sich noch nicht mit Planungsalgorithmen befasst haben, denke ich, dass viele Leute über die ChatGPT Der schockierende Moment, das Gefühl, noch nie dort gewesen zu sein. Ich glaube, ihr habt wahrscheinlich noch nie Planungsalgorithmen verwendet. Es gibt viele Leute, die sagen: "Wow, ich hätte nicht gedacht, dass KI-Intelligenzen so gut arbeiten können. Ich habe Live-Demonstrationen durchgeführt, bei denen die KI-Intelligenz, wenn etwas fehlschlägt, den Weg neu plant, um den Fehler zu vermeiden. Es gab sogar mehrere Gelegenheiten, bei denen ich von der Autonomie meiner eigenen KI-Systeme überwältigt war.
Ich habe ein Beispiel aus einem Aufsatz über GPT-Modelle adaptiert, bei dem man ein Bild eines Mädchens, das ein Buch liest, mit der gleichen Pose wie der Junge im Bild, z. B. example.jpeg, generieren lassen könnte, und dann würde es den Jungen im neuen Bild beschreiben. Mit Hilfe bestehender KI-Intelligenzen könnte man zunächst die Pose des Jungen bestimmen und dann ein geeignetes Modell finden, möglicherweise auf der Plattform HuggingFace, um die Pose zu extrahieren. Als Nächstes muss ein Modell gefunden werden, das das Bild nachbearbeitet, ein Bild des Mädchens gemäß den Anweisungen synthetisiert und dann Bild-zu-Text- und schließlich Text-zu-Sprache-Techniken verwendet.
Gegenwärtig verfügen wir über eine Reihe von KI-Intelligenzen, die zwar nicht immer zuverlässig sind, manchmal etwas umständlich sind und nicht immer funktionieren, aber wenn sie funktionieren, sind die Ergebnisse ziemlich erstaunlich. Mit dieser Art von intelligentem Körperzyklus-Design können wir uns manchmal sogar von früheren Misserfolgen erholen. Ich habe festgestellt, dass ich begonnen habe, diese Art von Forschungsintelligenz bei meiner Arbeit zu nutzen, wenn ich etwas recherchieren muss, aber nicht selbst viel Zeit für die Suche aufwenden möchte. Ich gebe die Aufgabe an die Forschungsintelligenz weiter und komme etwas später zurück, um zu sehen, was sie gefunden hat. Manchmal findet er gültige Ergebnisse, manchmal nicht. Aber so oder so, es ist Teil meines persönlichen Arbeitsablaufs geworden.
Das letzte Entwurfsmuster ist die Multi-Intelligence-Zusammenarbeit. Dieses Muster mag seltsam erscheinen, aber es funktioniert besser, als Sie vielleicht denken. Auf der linken Seite sehen Sie einen Screenshot aus einem Papier namens "Chat Dev", einem Projekt, das völlig offen und sogar quelloffen ist. Viele von Ihnen haben vielleicht die auffälligen Social-Media-Postings von "Devins" Demo gesehen, aber ich konnte "Chat Dev" auf meinem Laptop ausführen. Chat Dev" ist ein Beispiel für ein Multi-Intelligenz-System, bei dem Sie ein Large Language Model (LLM) einrichten können, um die Rolle des CEO einer Softwareentwicklungsfirma, eines Designers, eines Produktmanagers oder eines Testers zu übernehmen. Alles, was Sie tun müssen, ist, dem LLM mitzuteilen, dass Sie jetzt der CEO sind und Sie jetzt ein Software-Ingenieur sind, und sie werden anfangen, zusammenzuarbeiten und einen tiefgehenden Dialog zu führen. Wenn Sie ihnen sagen, sie sollen ein Spiel wie das GoMoki-Spiel entwickeln, werden sie ein paar Minuten damit verbringen, zu programmieren, zu testen und zu iterieren, und dann erstaunlich komplexe Programme erstellen. Das klappt nicht immer, und ich habe auch schon einige Fehlschläge erlebt, aber manchmal ist es erstaunlich, wie gut es funktioniert, und die Technologie wird immer besser. Ein weiteres Entwurfsmuster besteht darin, verschiedene Intelligenzen debattieren zu lassen. Man kann mehrere verschiedene Intelligenzen wie ChatGPT und Zwillinge Eine Debatte ist auch ein wirksames Muster zur Verbesserung der Leistung. Mehrere simulierte KI-Intelligenzen, die zusammenarbeiten, haben sich also als ein sehr leistungsfähiges Entwurfsmuster erwiesen.
Insgesamt sind dies die Entwurfsmuster, die ich beobachtet habe, und ich denke, wenn wir sie in unserer Arbeit anwenden können, können wir die Ergebnisse der KI schneller verbessern. Ich glaube, dass das Intelligent Body Reasoning Design Pattern eine wichtige Entwicklung sein wird.
Dies ist meine letzte Folie. Ich erwarte, dass die Aufgaben, die KI übernehmen kann, in diesem Jahr aufgrund der Auswirkungen intelligenter Arbeitsabläufe im Körper dramatisch zunehmen werden. Eine Sache, die für die Menschen vielleicht schwer zu akzeptieren ist, ist, dass wir, wenn wir einen Hinweis an das LLM senden, eine sofortige Antwort erwarten. In einer Diskussion, die ich vor zehn Jahren bei Google geführt habe und die "Big Box Search" hieß, haben wir sehr lange Eingabeaufforderungen eingegeben. Ich konnte dies nicht durchsetzen, denn wenn man eine Websuche durchführt, möchte man innerhalb einer halben Sekunde eine Antwort erhalten. Wir mögen sofortiges Feedback. Aber bei vielen intelligenten Arbeitsabläufen müssen wir lernen, Aufgaben an KI-Intelligenzen zu delegieren und geduldig zu sein und ein paar Minuten, vielleicht sogar Stunden, auf eine Antwort zu warten. So wie ich viele unerfahrene Manager sehe, die Aufgaben delegieren und sich dann fünf Minuten später melden, was nicht effizient ist, müssen wir dasselbe mit einigen KI-Intelligenzen tun, auch wenn das sehr schwierig ist. Ich dachte, ich hätte ein Lachen gehört.
Darüber hinaus ist die schnelle Erzeugung von Token LLMs lesen und generieren Token für sich selbst, und die Möglichkeit, Token schneller als jeder andere zu generieren, ist großartig. Ich denke, dass die Fähigkeit, mehr Token schnell zu generieren, sogar von LLMs mit etwas geringerer Qualität, gute Ergebnisse liefern kann, im Gegensatz zur langsamen Generierung von Token von LLMs mit besserer Qualität, die vielleicht nicht so gut sind. Diese Idee mag ein wenig umstritten sein, da sie Ihnen ein paar mehr Umdrehungen im Prozess ermöglicht, wie die Ergebnisse, die ich auf der ersten Folie für GPT-3 und die Smart-Body-Architektur gezeigt habe.
Ehrlich gesagt, ich freue mich darauf. Claude 4, GPT-5, Gemini 2.0 und all die anderen wunderbaren Modelle, die sich in der Entwicklung befinden. Wenn Sie sich darauf freuen, Ihr Projekt mit GPT-5 Zero-Sample-Learning durchzuführen, werden Sie feststellen, dass Sie durch den Einsatz von Intelligenz und Inferenz bei frühen Modellen das Leistungsniveau von GPT-5 schneller als erwartet erreichen können. Ich denke, dies ist ein wichtiger Trend.
Ehrlich gesagt ist der Weg zu einer allgemeinen KI eher eine Reise als ein Ziel, aber ich denke, dieser intelligente Körper-Workflow kann uns helfen, einen kleinen Schritt auf dieser sehr langen Reise zu machen.
Ich danke Ihnen.