Agenten-KI: Erforschung der Grenzwelt der multimodalen Interaktion [Fei-Fei Li - Classic Must Reads]

AI-WissensdatenbankAktualisiert vor 7 Monaten AI-Austauschkreis

1.7K 00

Agenten-KI: Vermessung der Horizonte der multimodalen Interaktion.

Original: https://ar5iv.labs.arxiv.org/html/2401.03568

Abstracts

Multimodale KI-Systeme werden in unserem täglichen Leben wahrscheinlich allgegenwärtig sein. Ein vielversprechender Ansatz, um diese Systeme interaktiver zu machen, besteht darin, sie als Intelligenzen in physischen und virtuellen Umgebungen zu implementieren. Derzeit nutzen Systeme bestehende Basismodelle als Grundbausteine für die Schaffung verkörperter Intelligenzen. Die Einbettung von Intelligenzen in solche Umgebungen trägt zur Fähigkeit des Modells bei, visuelle und kontextbezogene Daten zu verarbeiten und zu interpretieren, was für die Entwicklung komplexerer und kontextbezogener KI-Systeme entscheidend ist. Ein System, das in der Lage ist, das Verhalten des Benutzers, das menschliche Verhalten, Objekte in der Umgebung, Audiodateien und die kollektiven Emotionen einer Szene zu erkennen, kann beispielsweise dazu verwendet werden, die Reaktion eines intelligenten Körpers in einer bestimmten Umgebung zu steuern. Um die Erforschung von Intelligenzen, die auf multimodaler Intelligenz basieren, zu beschleunigen, definieren wir "Agenten-KI" als eine Klasse von interagierenden Systemen, die visuelle Reize, sprachliche Eingaben und andere umweltbasierte Daten wahrnehmen und sinnvolle verkörperte Verhaltensweisen erzeugen können. Insbesondere untersuchen wir Systeme, die darauf abzielen, die Vorhersage von Intelligenz auf der Grundlage des nächsten verkörperten Verhaltens zu verbessern, indem sie externes Wissen, multisensorische Eingaben und menschliches Feedback integrieren. Wir argumentieren, dass die Illusion großer Basismodelle und ihre Tendenz, umweltbedingte Fehler zu produzieren, auch durch die Entwicklung intelligenter KI-Systeme in geerdeten Umgebungen gemildert werden kann. Der aufkommende Bereich der "Agenten-KI" deckt die umfassenderen verkörperten und intelligenten Körperaspekte der multimodalen Interaktion ab. Zusätzlich zu den Intelligenzen, die in der physischen Welt agieren und interagieren, stellen wir uns eine Zukunft vor, in der die Menschen problemlos beliebige virtuelle Realitäten oder Simulationsszenarien erstellen und mit in die virtuelle Umgebung eingebetteten Intelligenzen interagieren können.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 1: Überblick über ein Agenten-KI-System, das in verschiedenen Bereichen und Anwendungen erkennen und handeln kann.Agenten-KI entwickelt sich zu einem vielversprechenden Weg zu allgemeiner künstlicher Intelligenz (AGI).Agenten-KI-Training hat die Fähigkeit gezeigt, multimodales Verstehen in der physischen Welt durchzuführen. Es bietet einen Rahmen für realitätsunabhängiges Training, indem es generative KI und mehrere unabhängige Datenquellen nutzt. Wenn sie auf realitätsübergreifenden Daten trainiert werden, können große Basismodelle, die für Intelligenz und handlungsbezogene Aufgaben trainiert wurden, sowohl in der physischen als auch in der virtuellen Welt angewendet werden. Wir zeigen einen allgemeinen Überblick über ein Agenten-KI-System, das in vielen verschiedenen Bereichen und Anwendungen wahrnehmen und handeln kann und möglicherweise als Weg zu AGI unter Verwendung des Paradigmas des intelligenten Körpers dient.

Verzeichnis (auf der Festplatte des Computers)

1 Einführung
1. 1.1 Lokomotive
2. 1.2 Kontexte
3. 1.3 skizziert.
2 Agenten-KI-Integration
1. 2.1 Unendliche AI-Intelligenz
2. 2.2 Agenten-KI unter Verwendung eines großen Basismodells
  1. 2.2.1 Fantasiegebilde
  2. 2.2.2 Voreingenommenheit und Inklusivität
  3. 2.2.3 Datenschutz und Datennutzung
  4. 2.2.4 Interpretierbarkeit und Beschreibbarkeit
  5. 2.2.5 Verbesserung der Argumentation
  6. 2.2.6 Aufsicht
3. 2.3 Agenten-KI für emergente Fähigkeiten
3 Paradigma der Agenten-KI
1. 3.1 Große Sprachmodelle und visuelle Sprachmodelle
2. 3.2 Definition des intelligenten Körpertransformators
3. 3.3 Intelligente Körper-Transformator-Kreation
4 Agent AI Learning
1. 4.1 Strategien und Mechanismen
  1. 4.1.1 Verstärkungslernen (RL)
  2. 4.1.2 Nachahmendes Lernen (IL)
  3. 4.1.3 Konventionelles RGB
  4. 4.1.4 Situatives Lernen
  5. 4.1.5 Optimierung in intelligenten Körpersystemen
2. 4.2 Intelligente Körpersysteme (Null und wenige Proben)
  1. 4.2.1 Modul Intelligente Karosserie
  2. 4.2.2 Intelligente Karosserie-Infrastruktur
3. 4.3 Intelligentes Körperbasismodell (Vorschulung und Feinabstimmung)
5 Agenten-KI-Klassifizierung
1. 5.1 Allgemeines Feld "Intelligenter Körper
2. 5.2 verkörperte Intelligenz
  1. 5.2.1 mobile Intelligenz
  2. 5.2.2 interagierende Intelligenz
3. 5.3 Simulation und Umweltintelligenz
4. 5.4 generative Intelligenz
  1. 5.4.1 AR/VR/Mixed Reality Intelligenter Körper
5. 5.5 Intellektuelle Intelligenz und logisches Denkvermögen
  1. 5.5.1 Abteilung für intellektuelle Intelligenz (KIU)
  2. 5.5.2 logische Intelligenz
  3. 5.5.3 Intelligenz für emotionale Argumentation
  4. 5.5.4 Einheit für neurosymbolische Intelligenz (NSI)
6. 5.6 Große Sprachmodellierung und visuelle Sprachmodellierung Intelligentsia
6 Aufgaben der Agenten-KI-Anwendung
1. 6.1 Intelligente Körper für Spiele
  1. 6.1.1 NPC-Verhalten
  2. 6.1.2 Mensch-NPC-Interaktion
  3. 6.1.3 Intelligente körperbasierte Spielanalyse
  4. 6.1.4 Für das Compositing von Spielszenen
  5. 6.1.5 Experimente und Ergebnisse
2. 6.2 Robotik
  1. 6.2.1 Großes Sprachmodell/visuelles Sprachmodell Intelligenz für die Robotik.
  2. 6.2.2 Experimente und Ergebnisse.
3. 6.3 Gesundheitsfürsorge
  1. 6.3.1 Derzeitige Kapazität des Gesundheitswesens
4. 6.4 multimodale Intelligenz
  1. 6.4.1 Bild-Sprache-Verständnis und -Erzeugung
  2. 6.4.2 Video- und Sprachverstehen und -erzeugung
  3. 6.4.3 Experimente und Ergebnisse
5. 6.5 Video - Sprachexperiment
6. 6.6 Intelligentsia für natürliche Sprachverarbeitung
  1. 6.6.1 Big Language Modelling Intelligence
  2. 6.6.2 Universal Large Language Modelling Intelligence (ULM)
  3. 6.6.3 Befehlsgesteuertes großes Sprachmodell Intelligentsia
  4. 6.6.4 Experimente und Ergebnisse
7 Agenten-KI über Modalitäten, Domänen und Realitäten hinweg
1. 7.1 Intelligenz für cross-modales Verständnis
2. 7.2 Intelligenz für bereichsübergreifendes Verständnis
3. 7.3 Interaktive Intelligenz für modal- und realitätsübergreifende Anwendungen
4. 7.4 Übergang von der Simulation zur Realität
8 Kontinuierliche und selbständige Verbesserung der Agenten-KI
1. 8.1 Daten, die auf menschlicher Interaktion beruhen
2. 8.2 Vom Basismodell erzeugte Daten
9 Smartbody-Datensätze und Bestenlisten
1. 9.1 Der "CuisineWorld"-Datensatz für Multi-Intelligenz-Spiele
  1. 9.1.1 Bezugsgröße
  2. 9.1.2 Mandate
  3. 9.1.3 Indikatoren und Beurteilungen
  4. 9.1.4 Bewertung
2. 9.2 Audio-Video-Sprachdaten zum Vortraining.
10 Erklärung zu den weitergehenden Auswirkungen
11 ethische Betrachtung
12 Diversity-Erklärung
A GPT-4V Intelligenter Körperalarm Details
B GPT-4V für Bleeding Edge
C GPT-4V für Microsoft Flight Simulator
D GPT-4V für Assassin's Creed Odyssey
E GPT-4V für GEARS of WAR 4
F GPT-4V für Starfield

1 Einleitung

1.1 Motivation

Historisch gesehen wurden KI-Systeme auf der Dartmouth-Konferenz 1956 als "künstliche Lebensformen" definiert, die in der Lage sind, Informationen aus der Umwelt zu sammeln und auf nützliche Weise mit ihr zu interagieren. Inspiriert von dieser Definition konstruierte Minskys Gruppe am MIT 1970 ein Robotersystem namens Replica Demonstration, das ein Szenario einer "Blockwelt" beobachtete und die beobachtete polyedrische Blockstruktur erfolgreich rekonstruierte. Das System umfasste Beobachtungs-, Planungs- und Manipulationsmodule, wobei sich herausstellte, dass jedes Teilproblem eine Herausforderung darstellte und weitere Forschung erforderte. Das Gebiet der KI ist in spezialisierte Teilbereiche unterteilt, die bei der Lösung dieser und anderer Probleme große Fortschritte gemacht haben, aber eine zu starke Vereinfachung verstellt den Blick auf die allgemeinen Ziele der KI-Forschung.

Um den Status quo zu überwinden, ist es notwendig, zu den Grundlagen der KI zurückzukehren, die auf dem aristotelischen Holismus beruhen. Glücklicherweise haben die jüngsten Revolutionen in den Bereichen Large Language Modelling (LLM/Large Language Model) und Visual Language Modelling (VLM/Visual Language Model) es möglich gemacht, neue Arten von KI-Intelligenzen zu schaffen, die ganzheitlichen Idealen entsprechen. In diesem Beitrag werden Modelle untersucht, die sprachliche Kompetenz, visuelle Wahrnehmung, kontextbezogenes Gedächtnis, intuitives Denken und Anpassungsfähigkeit integrieren, und diese Gelegenheit genutzt. Es wird das Potenzial der Verwendung von großen Sprachmodellen und visuellen Sprachmodellen untersucht, um diese holistische Synthese zu erreichen. Im Rahmen unserer Untersuchung befassen wir uns auch erneut mit dem Entwurf von Systemen auf der Grundlage von Aristoteles' "zweckgerichteter Ursache", d. h. dem teleologischen "Grund für die Existenz des Systems", der in früheren KI-Entwicklungen möglicherweise vernachlässigt wurde.

Die Renaissance der Verarbeitung natürlicher Sprache und des Computerbildes wurde durch das Aufkommen leistungsfähiger, vorab trainierter großer Sprachmodelle und visueller Sprachmodelle eingeleitet. Big-Language-Modelle zeigen inzwischen eine erstaunliche Fähigkeit, die Nuancen realer Sprachdaten zu entschlüsseln, die oft mit menschlichem Fachwissen übereinstimmt oder dieses sogar übertrifft OpenAI (2023). Kürzlich haben Forscher gezeigt, dass große Sprachmodelle so erweitert werden können, dass sie in einer Vielzahl von Umgebungen agieren können, wieintelligenter Körperdie in Verbindung mit domänenspezifischem Wissen und Modulen komplexe Handlungen und Aufgaben ausführen Xi et al. (2023). Diese Szenarien zeichnen sich durch komplexes Denken, das Verständnis der Rollen der Intelligenzen und ihrer Umgebung sowie durch mehrstufige Planung aus und testen die Fähigkeit der Intelligenzen, hochgradig nuancierte und komplexe Entscheidungen innerhalb der Einschränkungen ihrer Umgebung zu treffen Wu et al. (2023); Meta Fundamental AI Research Diplomacy Team et al. (2022) Meta Fundamental AI Research (FAIR) Diplomacy Team, Bakhtin, Brown, Dinan, Farina, Flaherty, Fried, Goff, Gray, Hu, et al. (FAIR).

Aufbauend auf diesen ersten Bemühungen steht die KI-Gemeinschaft an der Schwelle eines bedeutenden Paradigmenwechsels, weg von der Schaffung von KI-Modellen für passive, strukturierte Aufgaben und hin zu Modellen, die in der Lage sind, die Rolle von dynamischen, intelligenten Körpern in vielfältigen und komplexen Umgebungen zu übernehmen. Vor diesem Hintergrund untersucht dieses Papier das große Potenzial der Verwendung großer Sprachmodelle und visueller Sprachmodelle als Intelligenz, wobei der Schwerpunkt auf Modellen liegt, die sprachliche Kompetenz, visuelle Kognition, kontextbezogenes Gedächtnis, intuitives Denken und Anpassungsfähigkeit kombinieren. Der Einsatz von großen Sprachmodellen und visuellen Sprachmodellen als Intelligenzien, insbesondere in Bereichen wie Spiele, Robotik und Gesundheitswesen, bietet nicht nur eine rigorose Plattform für die Bewertung modernster KI-Systeme, sondern gibt auch einen Ausblick auf die transformativen Auswirkungen, die eine auf Intelligenzien ausgerichtete KI auf Gesellschaft und Industrie haben wird. Wenn sie vollständig genutzt werden, können intelligente Körpermodelle die menschliche Erfahrung neu definieren und die Betriebsstandards erhöhen. Das Potenzial dieser Modelle für eine vollständige Automatisierung kündigt einen dramatischen Wandel in der Industrie und der sozioökonomischen Dynamik an. Diese Fortschritte werden nicht nur in technologischer, sondern auch in ethischer Hinsicht mit einem vielschichtigen Führungsanspruch verbunden sein, wie wir in Abschnitt 11 näher ausführen werden. Wir gehen auf die sich überschneidenden Bereiche dieser Teilgebiete der intelligenten Körper-KI ein und veranschaulichen ihre Verflechtung in Abbildung 1.

1.2 Hintergrund

Wir werden nun einschlägige Forschungsarbeiten vorstellen, die das Konzept, den theoretischen Hintergrund und die modernen Implementierungen der künstlichen Intelligenz für intelligente Körper unterstützen.

Groß angelegte Basismodelle.

Große Sprachmodelle und visuelle Sprachmodelle haben die Bemühungen um die Entwicklung intelligenter Allzweckmaschinen vorangetrieben (Bubeck et al., 2023; Mirchandani et al., 2023). Obwohl sie anhand großer Textkorpora trainiert werden, sind ihre überlegenen Problemlösungsfähigkeiten nicht auf den kanonischen Sprachverarbeitungsbereich beschränkt. Große Sprachmodelle haben das Potenzial, komplexe Aufgaben zu bewältigen, von denen man bisher annahm, dass sie menschlichen Experten oder domänenspezifischen Algorithmen vorbehalten sind, angefangen bei mathematischen Schlussfolgerungen (Imani et al., 2023; Wei et al., 2022; Zhu et al., 2022) bis hin zur Beantwortung spezieller juristischer Fragen (Blair-Stanek et al., 2023; Choi et al., 2023; Nay, 2022). 2023; Nay, 2022). Jüngste Forschungsarbeiten haben gezeigt, dass es möglich ist, große Sprachmodelle zur Erstellung komplexer Pläne für Robotik- und Spiele-KI zu verwenden (Liang et al., 2022; Wang et al., 2023a, b; Yao et al., 2023a; Huang et al., 2023a), was einen wichtigen Meilenstein bei der Verwendung großer Sprachmodelle als universelle intelligente Intelligenzen darstellt.

Verkörperte KI.

In einigen Arbeiten wurden große Sprachmodelle für die Planung von Aufgaben eingesetzt (Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a), insbesondere das auf dem World Wide Web basierende Domänenwissen und die emergenten Fähigkeiten großer Sprachmodelle, komplexe Aufgaben zu planen und Schlussfolgerungen zu ziehen. Jüngste Forschungsarbeiten im Bereich der Robotik haben ebenfalls große Sprachmodelle für die Aufgabenplanung eingesetzt (Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022), indem sie Befehle in natürlicher Sprache in eine Reihe von Teilaufgaben zerlegen (entweder in natürlicher Sprache oder in Form von Python-Code), die dann von einem Low-Level-Controller ausgeführt werden. Darüber hinaus beziehen sie Feedback aus der Umgebung ein, um die Aufgabenausführung zu verbessern (Huang et al., 2022b), (Liang et al., 2022), (Wang et al., 2023a) und (Ikeuchi et al., 2023).

Interaktives Lernen:

KI-Intelligenzen, die für interaktives Lernen konzipiert sind, arbeiten mit einer Kombination aus maschinellen Lerntechniken und Nutzerinteraktion. Zunächst werden die KI-Intelligenzen mit einem großen Datensatz trainiert. Dieser Datensatz enthält verschiedene Arten von Informationen, je nach der beabsichtigten Funktion der Intelligenz. Eine KI, die für eine Sprachaufgabe entwickelt wurde, würde beispielsweise an einem großen Korpus von Textdaten trainiert werden. Für das Training werden Algorithmen des maschinellen Lernens verwendet, die auch Deep-Learning-Modelle (z. B. neuronale Netze) umfassen können. Diese Trainingsmodelle ermöglichen es der KI, Muster zu erkennen, Vorhersagen zu treffen und Antworten auf der Grundlage der Daten zu generieren, auf denen sie trainiert wurde. KI-Intelligenzen können auch aus Echtzeit-Interaktionen mit Nutzern lernen. Dieses interaktive Lernen kann auf verschiedene Weise erfolgen: 1) Feedback-basiertes Lernen: Die KI passt ihre Antworten auf der Grundlage des direkten Feedbacks des Nutzers an Li et al. (2023b); Yu et al. (2023a); Parakh et al. (2023); Zha et al. (2023); Wake et al. (2023a, b, c). Wenn der Benutzer beispielsweise die Antwort der KI korrigiert, kann die KI diese Information nutzen, um künftige Antworten zu verbessern Zha et al. (2023); Liu et al. (2023a). 2) Beobachtungslernen: Die KI beobachtet die Benutzerinteraktionen und lernt implizit. Stellt ein Nutzer beispielsweise häufig ähnliche Fragen oder interagiert er auf eine bestimmte Weise mit der KI, kann die KI ihre Antworten so anpassen, dass sie diesen Mustern besser entsprechen. So können KI-Intelligenzen menschliche Sprache und multimodale Einstellungen verstehen und verarbeiten, realitätsübergreifende Situationen interpretieren und Antworten von menschlichen Nutzern erzeugen. Im Laufe der Zeit wird die Leistung der KI-Intelligenzen in der Regel durch mehr Nutzerinteraktion und Feedback verbessert. Dieser Prozess wird in der Regel von einem menschlichen Bediener oder Entwickler überwacht, der sicherstellt, dass die KI angemessen lernt und keine Vorurteile oder falschen Muster entwickelt.

1.3 Überblick

Multimodale Agenten-KI (MAA/Multimodale Agenten-KI) ist eine Reihe von Systemen, die auf der Grundlage des Verständnisses multimodaler sensorischer Eingaben effektive Handlungen in einer gegebenen Umgebung erzeugen. Mit dem Aufkommen des großen Sprachmodells (LLM/Large Language Model) und des visuellen Sprachmodells (VLM/Visual Language Model) wurde eine Reihe von multimodalen Agenten-KI-Systemen in Bereichen vorgeschlagen, die von der Grundlagenforschung bis zu Anwendungen reichen. Während sich diese Forschungsbereiche durch die Integration traditioneller Techniken in jedem Bereich (z. B. visuelle Befragung und visuelle Sprachnavigation) rasch weiterentwickeln, haben sie gemeinsame Interessen wie Datenerfassung, Benchmarking und ethische Perspektiven. In diesem Beitrag konzentrieren wir uns auf einige repräsentative Forschungsbereiche der KI für multimodale Intelligenzen, nämlich Multimodalität, Gaming (VR/AR/MR), Robotik und Gesundheitswesen, und unser Ziel ist es, umfassendes Wissen über die in diesen Bereichen diskutierten gemeinsamen Anliegen zu vermitteln. Daher wollen wir die Grundlagen der KI für multimodale Intelligenzen erlernen und Einblicke gewinnen, um ihre Forschung weiter voranzutreiben. Zu den spezifischen Lernergebnissen gehören:

Ein Überblick über die Künstliche Intelligenz für multimodale Intelligenz: eine eingehende Betrachtung ihrer Grundsätze und ihrer Rolle in aktuellen Anwendungen, die Forschern ein umfassendes Verständnis ihrer Bedeutung und ihres Einsatzes vermittelt.
METHODIK: Fallstudien aus den Bereichen Gaming, Robotik und Gesundheitswesen zeigen, wie makrosprachliche Modelle und visuelle Sprachmodelle die künstliche Intelligenz multimodaler Intelligenzen verbessern können.
Leistungsbewertung: ein Leitfaden für die Bewertung multimodaler Intelligenzen KI unter Verwendung relevanter Datensätze, mit Schwerpunkt auf ihrer Wirksamkeit und Generalisierungsfähigkeit.
Ethische Erwägungen: Erörterung der sozialen Auswirkungen und der ethischen Einstufung des Einsatzes von intelligenter Körper-KI unter besonderer Berücksichtigung verantwortungsvoller Entwicklungspraktiken.
Emerging Trends and Future Charts: kategorisiert die neuesten Entwicklungen in jedem Bereich und erörtert künftige Richtungen.

Computergestützte Handlungs- und Generalistenintelligenzen (GA/Generalist Agent) sind für viele Aufgaben nützlich. Damit ein generalistischer intelligenter Körper für seine Nutzer wirklich wertvoll ist, muss er auf natürliche Weise interagieren können und auf eine Vielzahl von Kontexten und Modalitäten verallgemeinert werden können. Unser Ziel ist es, ein lebendiges Forschungsökosystem innerhalb der KI-Gemeinschaft für intelligente Körper zu fördern und ein gemeinsames Gefühl von Identität und Zweck zu schaffen. Multimodale intelligente Körper-KI hat das Potenzial, auf ein breites Spektrum von Kontexten und Modalitäten angewandt zu werden, einschließlich der Eingaben von Menschen. Daher glauben wir, dass dieser Bereich der intelligenten Körper-KI eine Vielzahl von Forschern anziehen kann, wodurch eine dynamische Gemeinschaft der intelligenten Körper-KI und gemeinsame Ziele gefördert werden können. Unter der Leitung von renommierten Experten aus dem akademischen Bereich und der Industrie erwarten wir, dass dieses Papier eine interaktive und informative Erfahrung sein wird, einschließlich intelligenter Körper-Tutorials, Fallstudien, Aufgabensitzungen und experimenteller Diskussionen, die eine umfassende und fesselnde Lernerfahrung für alle Forscher gewährleisten.

Ziel dieses Papiers ist es, allgemeines und umfassendes Wissen über die aktuelle Forschung auf dem Gebiet der künstlichen Intelligenz für Intelligenz zu vermitteln. Zu diesem Zweck ist der restliche Teil des Papiers wie folgt gegliedert. In Abschnitt 2 wird dargelegt, wie die KI für intelligente Körper von der Integration einschlägiger neuer Technologien profitieren kann, insbesondere von groß angelegten Basismodellen. Abschnitt 3 beschreibt das neue Paradigma und den Rahmen, den wir für das Training intelligenter Körper-KI vorschlagen. Abschnitt 4 gibt einen Überblick über weit verbreitete Methoden für das Training intelligenter Körper-KI. Abschnitt 5 klassifiziert und diskutiert verschiedene Arten von Intelligenz. Abschnitt 6 beschreibt Anwendungen von intelligenter Körper-KI in den Bereichen Spiele, Robotik und Gesundheitswesen. Abschnitt 7 befasst sich mit den Bemühungen der Forschungsgemeinschaft, eine universelle intelligente Körper-KI zu entwickeln, die auf eine Vielzahl von Modalitäten und Domänen angewendet werden kann und die Kluft zwischen Simulation und Realität überbrückt. Abschnitt 8 erörtert das Potenzial einer intelligenten Körper-KI, die nicht nur auf vortrainierten Basismodellen beruht, sondern auch kontinuierlich lernt und sich selbst verbessert, indem sie Interaktionen mit der Umgebung und dem Benutzer nutzt. Abschnitt 9 beschreibt unseren neuen Datensatz für das Training multimodaler intelligenter Körper-KI. Abschnitt 11 erörtert das heiße Thema der KI-Intelligenzen, die Grenzen und die ethischen Überlegungen zu den sozialen Auswirkungen unserer Arbeit.

2 Intelligente Körper Künstliche Intelligenz Integration

Wie aus früheren Studien hervorgeht, weisen die zugrunde liegenden Modelle, die auf Makrosprachenmodellen und visuellen Sprachmodellen basieren, im Bereich der verkörperten KI immer noch eine begrenzte Leistung auf, insbesondere beim Verstehen, Generieren, Bearbeiten und Interagieren in ungesehenen Umgebungen oder Szenen Huang et al. (2023a); Zeng et al. (2023). Infolgedessen führen diese Einschränkungen zu einer suboptimalen Leistung von KI-Intelligenzen. Aktuelle Ansätze zur intelligenzzentrierten KI-Modellierung konzentrieren sich auf direkt zugängliche und gut definierte Daten (z. B. Text- oder Zeichenkettendarstellungen des Zustands der Welt) und verwenden typischerweise domänen- und umgebungsunabhängige Muster, die aus ihrem groß angelegten Vortraining gelernt wurden, um Handlungsergebnisse für jede Umgebung vorherzusagen Xi et al. (2023); Wang et al. et al. (2023a); Wu et al. (2023). In (Huang et al., 2023a) untersuchen wir die Aufgabe der wissensgesteuerten Zusammenarbeit und der interaktiven Szenengenerierung durch die Kombination großer Basismodelle und zeigen vielversprechende Ergebnisse, die darauf hindeuten, dass wissensbasierte Intelligenz großer Sprachmodelle die Leistung von 2D- und 3D-Szenenverständnis, -generierung und -bearbeitung sowie anderer Mensch-Computer-Interaktion verbessern kann Huang et al. (2023a). ). Durch die Integration des Intelligent Body AI Frameworks ist das große Basismodell in der Lage, Benutzereingaben tiefer zu verstehen, was zu komplexen und adaptiven Mensch-Computer-Interaktionssystemen führt. Die entstehenden Fähigkeiten von großen Sprachmodellen und visuellen Sprachmodellen spielen in der Mensch-Computer-Interaktion für generative KI, verkörperte KI, Wissenserweiterung für multimodales Lernen, Mixed-Reality-Generierung, Text-zu-Sicht-Bearbeitung und 2D/3D-Simulationen in Spielen oder Robotikaufgaben eine bisher unbekannte Rolle. Jüngste Fortschritte bei der grundlegenden Modellierung intelligenter Körper-KI sind ein bevorstehender Katalysator für die Freisetzung generischer Intelligenz in verkörperten Intelligenzen. Groß angelegte Aktionsmodelle oder visuelle Sprachmodelle von Intelligenzen eröffnen neue Möglichkeiten für generische verkörperte Systeme, wie Planung, Problemlösung und Lernen in komplexen Umgebungen. Intelligente verkörperte KI ist ein weiterer Schritt in das Meta-Universum und weist den Weg zu frühen Versionen der allgemeinen KI.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abb. 2: Multimodale Smartbody AI für 2D/3D verkörperte Generierung und Bearbeitung von Interaktionen in der Realität.

2.1 Unendliche künstliche Intelligenz

Künstliche Intelligenzen sind in der Lage, auf der Grundlage ihrer Trainings- und Eingabedaten zu interpretieren, vorherzusagen und zu reagieren. Diese Fähigkeiten sind zwar fortgeschritten und werden immer besser, aber es ist wichtig, ihre Grenzen und die Auswirkungen der zugrunde liegenden Daten, auf denen sie trainiert werden, zu erkennen. KI-Intelligenzsysteme verfügen in der Regel über die folgenden Fähigkeiten: 1) Vorausschauende Modellierung: KI-Intelligenzsysteme können wahrscheinliche Ergebnisse vorhersagen oder auf der Grundlage historischer Daten und Trends weitere Schritte vorschlagen. So können sie beispielsweise die Fortsetzung eines Textes, die Antwort auf eine Frage, die nächste Aktion eines Roboters oder die Lösung eines Szenarios vorhersagen.2) Entscheidungsfindung: In einigen Anwendungen können KI-Intelligenzen auf der Grundlage ihrer Schlussfolgerungen Entscheidungen treffen. Typischerweise treffen die Intelligenzen Entscheidungen auf der Grundlage dessen, was am wahrscheinlichsten zum Erreichen des vorgegebenen Ziels beiträgt. Bei KI-Anwendungen wie Empfehlungssystemen können KI-Intelligenzen auf der Grundlage ihrer Rückschlüsse auf die Benutzerpräferenzen entscheiden, welche Produkte oder Inhalte empfohlen werden sollen.3) Umgang mit Mehrdeutigkeit: KI-Intelligenzen können oft mit mehrdeutigen Eingaben umgehen, indem sie auf der Grundlage des Kontexts und des Trainings die wahrscheinlichste Interpretation ableiten. Ihre Fähigkeit dazu wird jedoch durch den Umfang ihrer Trainingsdaten und Algorithmen eingeschränkt.4) Kontinuierliche Verbesserung: Während einige KI-Intelligenzen die Fähigkeit besitzen, aus neuen Daten und Interaktionen zu lernen, aktualisieren viele große Sprachmodelle ihre Wissensbasis oder internen Repräsentationen nach dem Training nicht kontinuierlich. Ihre Schlussfolgerungen beruhen in der Regel nur auf den Daten, die zum Zeitpunkt der letzten Trainingsaktualisierung verfügbar waren.

Wir zeigen erweiterte interaktive Intelligenzen für multimodale und realitätsübergreifende agnostische Integration mit emergenten Mechanismen in Abbildung 2. Künstliche Intelligenzen erfordern für jede neue Aufgabe die Sammlung großer Mengen von Trainingsdaten, was für viele Bereiche kostspielig oder unmöglich sein kann. In dieser Studie entwickeln wir einen unendlichen intelligenten Körper, der lernt, Informationen aus einem Allzweck-Basismodell (z. B. GPT-X, DALL-E) auf neue Domänen oder Szenarien zu übertragen, um Szenarien zu verstehen, zu generieren und interaktiv in einer physischen oder virtuellen Welt zu bearbeiten.

Eine Anwendung solcher unendlichen Intelligenzen in der Robotik ist RoboGen Wang et al. (2023d). In dieser Studie stellen die Autoren eine Pipeline für autonom ablaufende Zyklen für Aufgabenvorschläge, Umgebungsgenerierung und das Erlernen von Fähigkeiten vor.RoboGen ist ein Versuch, in groß angelegte Modelle eingebettetes Wissen auf die Robotik zu übertragen.

2.2 Künstliche Intelligenz für Intelligenzia mit großen Basismodellen

Jüngste Forschungsarbeiten haben gezeigt, dass groß angelegte Basismodelle eine entscheidende Rolle bei der Erstellung von Daten spielen, die als Benchmarks für die Bestimmung der Handlungen eines intelligenten Körpers innerhalb der von der Umgebung auferlegten Beschränkungen dienen. Beispiele hierfür sind die Verwendung von Basismodellen für die Robotermanipulation Black et al. (2023); Ko et al. (2023) und die Navigation Shah et al. (2023a); Zhou et al. (2023a). Zur Veranschaulichung setzen Black et al. ein Bildbearbeitungsmodell als High-Level-Planer ein, um Bilder zukünftiger Teilziele zu generieren und die Low-Level-Strategie zu steuern Black et al. (2023). Für die Roboternavigation schlagen Shah et al. ein System vor, das ein Makro-Sprachmodell zur Erkennung von Orientierungspunkten in Texten und ein visuelles Sprachmodell zur Verknüpfung dieser Orientierungspunkte mit visuellen Eingaben einsetzt und so die Navigation durch natürlichsprachliche Befehle verbessert Shah et al. (2023a).

Es besteht auch ein wachsendes Interesse an der Erzeugung konditionierter menschlicher Bewegungen, die auf sprachliche und umweltbedingte Faktoren zugeschnitten sind. Mehrere KI-Systeme wurden vorgeschlagen, um Bewegungen und Handlungen zu erzeugen, die auf spezifische sprachliche Befehle zugeschnitten sind Kim et al. (2023); Zhang et al. (2022); Tevet et al. (2022) und an eine Vielzahl von 3D-Szenen angepasst sind Wang et al. (2022a). Diese Forschungsarbeiten verdeutlichen die wachsende Fähigkeit generativer Modelle zur Verbesserung der Anpassungsfähigkeit und Reaktionsfähigkeit von KI-Intelligenzen in einer Vielzahl von Szenarien.

2.2.1 Halluzinationen

Intelligente Systeme, die Text generieren, sind oft anfällig für Halluzinationen, d.h. Situationen, in denen der generierte Text bedeutungslos ist oder nicht mit dem bereitgestellten Quellinhalt übereinstimmt Raunak et al. (2021); Maynez et al. (2020). Illusionen können in zwei Kategorien unterteilt werden.innere Illusionim Gesang antwortenäußere Illusion Ji et al. (2023). Intrinsische Illusionen sind solche, die dem Ausgangsmaterial widersprechen, während extrinsische Illusionen Fälle sind, in denen der generierte Text zusätzliche Informationen enthält, die ursprünglich nicht im Ausgangsmaterial enthalten waren.

Einige vielversprechende Wege zur Verringerung der Illusionsrate bei der Spracherzeugung sind der Einsatz von Retrieval zur Verbesserung der Erzeugung Lewis et al. (2020); Shuster et al. (2021) oder andere Ansätze, die die natürliche Sprachausgabe durch externe Wissensabfrage unterstützen Dziri et al. (2021); Peng et al. (2023). In der Regel zielen diese Ansätze darauf ab, die Spracherzeugung zu verbessern, indem anderes Quellmaterial abgerufen wird und Mechanismen zur Überprüfung von Widersprüchen zwischen der erzeugten Antwort und dem Quellmaterial bereitgestellt werden.

Im Zusammenhang mit multimodalen intelligenten Körpersystemen wurde auch gezeigt, dass visuelle Sprachmodelle Halluzinationen erzeugen können Zhou et al. (2023b). Eine häufige Ursache für Halluzinationen bei der visuell basierten Spracherzeugung ist ein übermäßiges Vertrauen auf das gemeinsame Auftreten von Objekten und visuellen Hinweisen in den Trainingsdaten Rohrbach et al. (2018). KI-Intelligenzen, die sich ausschließlich auf vortrainierte Makrosprach- oder visuelle Sprachmodelle stützen und eine begrenzte kontextspezifische Feinabstimmung verwenden, können besonders anfällig für Halluzinationen sein, da sie sich bei der Generierung von Aktionen auf die interne Wissensbasis des vortrainierten Modells verlassen und die Dynamik des Weltzustands, in dem sie eingesetzt werden, möglicherweise nicht genau verstehen.

2.2.2 Vorurteile und Inklusivität

KI-Intelligenzen, die auf großen Sprachmodellen (Large Language Models, LLMs) oder großen multimodalen Modellen (Large Multimodal Models, LMMs) beruhen, sind aufgrund mehrerer Faktoren, die in ihrem Design und Trainingsprozess liegen, voreingenommen. Bei der Entwicklung dieser KI-Intelligenzen müssen wir auf Inklusivität achten und uns der Bedürfnisse aller Endnutzer und Interessengruppen bewusst sein. Im Zusammenhang mit KI-Intelligenzen ist dieNichtausschließlichkeit bezieht sich auf die Maßnahmen und Grundsätze, mit denen sichergestellt werden soll, dass die Reaktionen und Interaktionen der intelligenten Stellen inklusiv, respektvoll und sensibel für ein breites Spektrum von Nutzern mit unterschiedlichem Hintergrund sind. Im Folgenden werden die Hauptaspekte der Voreingenommenheit und Inklusivität intelligenter Stellen erläutert.

TrainingsdatenDas zugrundeliegende Modell wird anhand einer großen Menge von Textdaten aus dem Internet trainiert, darunter Bücher, Artikel, Websites und andere Textquellen. Diese Daten spiegeln oft Vorurteile wider, die in der menschlichen Gesellschaft bestehen und die das Modell unbeabsichtigt lernen und reproduzieren kann. Dazu gehören Stereotypen, Vorurteile und voreingenommene Ansichten im Zusammenhang mit Ethnie, Geschlecht, ethnischer Zugehörigkeit, Religion und anderen persönlichen Eigenschaften. Insbesondere durch das Training mit Internetdaten und die ausschließliche Verwendung englischer Texte lernen Modelle implizit die kulturellen Normen westlicher, gebildeter, industrialisierter, reicher und demokratischer Gesellschaften (WEIRD) Henrich et al. ( 2010 ), die im Internet überproportional präsent sind. Es ist jedoch wichtig anzuerkennen, dass von Menschen geschaffene Datensätze nicht völlig frei von Voreingenommenheit sein können, da sie häufig sowohl gesellschaftliche Vorurteile als auch die der Personen widerspiegeln, die die Daten ursprünglich erzeugt und/oder zusammengestellt haben.
Historische und kulturelle Vorurteile: KI-Modelle werden auf großen Datensätzen mit unterschiedlichen Inhalten trainiert. So enthalten die Trainingsdaten oft historische Texte oder Materialien aus verschiedenen Kulturen. Insbesondere Trainingsdaten aus historischen Quellen können beleidigende oder abwertende Sprache enthalten, die die kulturellen Normen, Einstellungen und Vorurteile einer bestimmten Gesellschaft repräsentiert. Dies kann zu Modellen führen, die überholte Stereotypen aufrechterhalten oder zeitgenössische kulturelle Veränderungen und Nuancen nicht vollständig verstehen.
Sprachliche und kontextuelle BeschränkungenSprachmodelle können Schwierigkeiten haben, Nuancen in der Sprache wie Ironie, Humor oder kulturelle Anspielungen zu verstehen und korrekt wiederzugeben. Dies kann in manchen Fällen zu Missverständnissen oder verzerrten Antworten führen. Darüber hinaus werden viele Aspekte der gesprochenen Sprache von reinen Textdaten nicht erfasst, was zu einer potenziellen Diskrepanz zwischen dem menschlichen Sprachverständnis und dem der Modelle führt.
Politiken und LeitlinienKI-Intelligenzen arbeiten nach strengen Richtlinien und Vorgaben, um Fairness und Integration zu gewährleisten. Bei der Erstellung von Bildern gibt es zum Beispiel Regeln zur Diversifizierung der Darstellung von Charakteren und zur Vermeidung von Stereotypen im Zusammenhang mit Ethnie, Geschlecht und anderen Attributen.
ÜbergeneralisierungDiese Modelle neigen dazu, Antworten auf der Grundlage von Mustern aus den Trainingsdaten zu generieren. Dies kann zu einer Übergeneralisierung führen, und die Modelle können Antworten generieren, die bestimmte Gruppen zu stereotypisieren scheinen oder allgemeine Annahmen treffen.
Kontinuierliche Überwachung und AktualisierungDas KI-System wird laufend überwacht und aktualisiert, um aufkommende Probleme mit Voreingenommenheit oder Inklusivität zu lösen. Das Feedback der Nutzer und die laufende Forschung im Bereich der KI-Ethik spielen dabei eine entscheidende Rolle.
Verstärkung der Mainstream-SichtweiseDa die Trainingsdaten in der Regel mehr Inhalte der dominanten Kultur oder Gruppe enthalten, kann das Modell stärker auf diese Ansichten ausgerichtet sein und somit die Ansichten von Minderheitengruppen unterschätzen oder verzerren.
Ethisches und inklusives DesignKI-Tools sollten nach ethischen Gesichtspunkten und unter Einbeziehung aller Menschen entwickelt werden. Dazu gehören die Achtung kultureller Unterschiede, die Förderung der Vielfalt und die Sicherstellung, dass KI keine schädlichen Stereotypen aufrechterhält.
BenutzerhandbuchBenutzer werden auch angewiesen, wie sie mit der KI auf eine Weise interagieren können, die Inklusivität und Respekt fördert. Dazu gehört die Vermeidung von Anfragen, die zu voreingenommenen oder unangemessenen Ergebnissen führen könnten. Darüber hinaus kann dies dazu beitragen, Situationen zu vermeiden, in denen das Modell aus den Interaktionen mit dem Nutzer schädliches Material lernt.

Trotz dieser Maßnahmen gibt es bei KI-Intelligenzen nach wie vor Vorurteile. Die laufenden Bemühungen in der Forschung und Entwicklung von KI für Intelligenzia konzentrieren sich darauf, diese Vorurteile weiter abzubauen und die Inklusivität und Fairness von KI für Intelligenzia-Systemen zu verbessern. Bemühungen zur Reduzierung von Vorurteilen:

Vielfältige und umfassende SchulungsdatenEs werden Anstrengungen unternommen, um vielfältigere und umfassendere Quellen in die Schulungsdaten aufzunehmen.
Erkennung und Korrektur von VerzerrungenLaufende Forschungsarbeiten konzentrieren sich auf die Erkennung und Korrektur von Verzerrungen in Modellantworten.
Ethische Leitlinien und Politiken: Models sind oft an ethische Richtlinien und Grundsätze gebunden, die Vorurteile abbauen und einen respektvollen und integrativen Umgang miteinander gewährleisten sollen.
Vielfältige VertretungSicherstellen, dass die von KI-Intelligenzen generierten Inhalte oder gegebenen Antworten ein breites Spektrum an menschlichen Erfahrungen, Kulturen, Ethnien und Identitäten repräsentieren. Dies ist besonders in Szenarien wie der Bilderzeugung oder der Konstruktion von Erzählungen wichtig.
Abmilderung von VorurteilenAktives Bemühen um den Abbau von Vorurteilen bei KI-Antworten. Dazu gehören Vorurteile in Bezug auf Ethnie, Geschlecht, Alter, Behinderung, sexuelle Orientierung und andere persönliche Merkmale. Ziel ist es, eine faire und ausgewogene Antwort zu geben und nicht, Stereotypen oder Vorurteile aufrechtzuerhalten.
Kulturelle SensibilitätDie Entwürfe von AI sind kultursensibel und erkennen und respektieren die Vielfalt kultureller Normen, Praktiken und Werte. Dazu gehört auch, dass wir kulturelle Bezüge und Nuancen verstehen und angemessen darauf reagieren.
ZugänglichkeitSicherstellen, dass KI-Intelligenzen für Nutzer mit unterschiedlichen Fähigkeiten, einschließlich Menschen mit Behinderungen, zugänglich sind. Dazu kann es gehören, Funktionen einzubauen, die Menschen mit Seh-, Hör-, motorischen oder kognitiven Einschränkungen die Interaktion erleichtern.
Sprachenbasierte InklusionUnterstützung für mehrere Sprachen und Dialekte für eine globale Benutzerbasis und Sensibilität für sprachinterne Nuancen und Unterschiede Liu et al. (2023b).
Ethischer und respektvoller UmgangDie Intelligenz ist so programmiert, dass sie mit allen Nutzern auf ethische und respektvolle Weise interagiert und Reaktionen vermeidet, die als beleidigend, schädlich oder respektlos angesehen werden könnten.
Nutzerfeedback und AnpassungEinbeziehung von Nutzerfeedback zur kontinuierlichen Verbesserung der Inklusivität und Effektivität von KI-Intelligenzen. Dazu gehört auch, aus Interaktionen zu lernen, um eine vielfältige Nutzerbasis besser zu verstehen und zu bedienen.
Einhaltung der integrativen LeitlinienEinhaltung etablierter Richtlinien und Standards für den Einbezug von KI-Intelligenzen, die in der Regel von Branchengruppen, Ethikausschüssen oder Regulierungsbehörden festgelegt werden.

Trotz dieser Bemühungen ist es wichtig, sich der potenziellen Voreingenommenheit bei den Antworten bewusst zu sein und sie kritisch zu interpretieren. Die kontinuierlichen Verbesserungen der KI-Intelligenztechnologie und der ethischen Praktiken zielen darauf ab, diese Voreingenommenheit mit der Zeit zu verringern. Intelligente Körper Eines der übergreifenden Ziele der KI-Inklusivität ist die Schaffung eines intelligenten Körpers, der respektvoll und für alle Nutzer zugänglich ist, unabhängig von deren Hintergrund oder Identität.

2.2.3 Datenschutz und Datennutzung

Eine wichtige ethische Überlegung in Bezug auf KI-Intelligenzen besteht darin zu verstehen, wie diese Systeme Nutzerdaten verarbeiten, speichern und möglicherweise abrufen. Wir erörtern die wichtigsten Aspekte im Folgenden:

Erhebung, Verwendung und Zweck der Daten.

Bei der Verwendung von Nutzerdaten zur Verbesserung der Modellleistung haben die Modellentwickler Zugang zu Daten, die von KI-Intelligenzen in der Produktion und bei der Interaktion mit Nutzern gesammelt werden. Einige Systeme ermöglichen es den Nutzern, ihre Daten über ihr Nutzerkonto oder durch eine Anfrage an einen Dienstanbieter einzusehen. Es ist wichtig zu erkennen, welche Daten die KI-Intelligenzen bei diesen Interaktionen sammeln. Dazu können Texteingaben, Nutzungsverhalten, persönliche Vorlieben und manchmal auch sensiblere persönliche Informationen gehören. Die Nutzer sollten auch verstehen, wie die aus ihren Interaktionen gewonnenen Daten verwendet werden. Wenn die KI aus irgendeinem Grund falsche Informationen über eine bestimmte Person oder Gruppe hat, sollte es einen Mechanismus geben, mit dem der Benutzer den Fehler korrigieren kann, sobald er erkannt wurde. Dies ist wichtig für die Genauigkeit und den Respekt gegenüber allen Nutzern und Gruppen. Zu den üblichen Verwendungszwecken für das Abrufen und Analysieren von Benutzerdaten gehören die Verbesserung der Benutzerinteraktion, die Personalisierung von Antworten und die Optimierung von Systemen. Es ist wichtig, dass die Entwickler sicherstellen, dass die Daten nicht für Zwecke verwendet werden, denen die Nutzer nicht zugestimmt haben (z. B. unaufgefordertes Marketing).

Lagerung und Sicherheit.

Die Entwickler sollten sich darüber im Klaren sein, wo die Benutzerinteraktionsdaten gespeichert werden und welche Sicherheitsmaßnahmen zum Schutz vor unbefugtem Zugriff oder Offenlegung getroffen werden. Dazu gehören Verschlüsselung, sichere Server und Datenschutzprotokolle. Es ist wichtig zu bestimmen, ob und unter welchen Bedingungen Smart Body-Daten an Dritte weitergegeben werden. Dies sollte transparent sein und erfordert in der Regel die Zustimmung des Nutzers.

Löschung und Aufbewahrung von Daten.

Für die Nutzer ist es auch wichtig zu wissen, wie lange die Nutzerdaten gespeichert werden und wie sie die Löschung ihrer Daten verlangen können. Viele Datenschutzgesetze räumen den Nutzern das Recht auf Vergessenwerden ein, was bedeutet, dass sie die Löschung ihrer Daten verlangen können.AI Intelligentsia muss Datenschutzgesetze wie die GDPR der EU oder das CCPA von Kalifornien einhalten. Diese Gesetze regeln die Datenverarbeitungspraktiken und die Rechte der Nutzer auf ihre personenbezogenen Daten.

Datenübertragbarkeit und Datenschutzpolitik.

Darüber hinaus müssen die Entwickler eine Datenschutzrichtlinie für KI-Intelligenzen erstellen, um zu dokumentieren und den Nutzern zu erklären, wie ihre Daten behandelt werden. Darin sollten die Datenerhebung, -verwendung und -speicherung sowie die Rechte der Nutzer genau beschrieben werden. Die Entwickler sollten sicherstellen, dass sie die Zustimmung der Nutzer zur Datenerfassung einholen, insbesondere bei sensiblen Informationen. Die Nutzer können in der Regel ihre Zustimmung verweigern oder die von ihnen bereitgestellten Daten einschränken. In einigen Ländern haben die Nutzer sogar das Recht, eine Kopie ihrer Daten in einem Format anzufordern, das an einen anderen Dienstanbieter übertragen werden kann.

Anonymisierung.

Daten, die für umfassendere Analysen oder KI-Training verwendet werden, sollten idealerweise anonymisiert werden, um individuelle Identitäten zu schützen. Die Entwickler müssen verstehen, wie ihre KI-Intelligenzen historische Nutzerdaten während der Interaktion abrufen und nutzen. Dies kann zur Personalisierung oder zur Verbesserung der Relevanz einer Antwort dienen.

Zusammenfassend lässt sich sagen, dass zum Verständnis des Datenschutzes für KI-Intelligenzen auch gehört, dass man versteht, wie Nutzerdaten gesammelt, verwendet, gespeichert und geschützt werden, und dass man sicherstellt, dass die Nutzer ihre Rechte in Bezug auf den Zugang, die Korrektur und die Löschung ihrer Daten kennen. Das Verständnis der Datenabrufmechanismen von Nutzern und KI-Intelligenzen ist ebenfalls entscheidend für ein umfassendes Verständnis des Datenschutzes.

2.2.4 Interpretierbarkeit und Beschreibbarkeit

Lernen durch Nachahmung → Entkopplung

Intelligente Systeme werden in der Regel mit kontinuierlichen Rückkopplungsschleifen im Rahmen des Verstärkungslernens (RL) oder des Nachahmungslernens (IL) trainiert, wobei mit einer zufällig initialisierten Strategie begonnen wird. Dieser Ansatz stößt jedoch auf Engpässe, wenn es darum geht, anfängliche Belohnungen in unbekannten Umgebungen zu erhalten, insbesondere wenn die Belohnungen spärlich sind oder nur am Ende von Interaktionen mit langen Schritten zur Verfügung stehen. Eine bessere Lösung ist daher die Verwendung von Intelligenzen mit unendlichem Gedächtnis, die durch Nachahmungslernen trainiert werden und Strategien aus Expertendaten lernen können, was zu einer verbesserten Erkundung und Nutzung des unbekannten Umgebungsraums sowie der entstehenden Infrastrukturen führt, wie in Abbildung 3 dargestellt. Mit Expertenmerkmalen, die Intelligenzen helfen, unsichtbare Umgebungsräume besser zu erkunden und zu nutzen. Intelligente Körper-KI kann Strategien und neue paradigmatische Prozesse direkt aus Expertendaten erlernen.

Beim traditionellen Nachahmungslernen können Intelligenzen Strategien erlernen, indem sie das Verhalten eines erfahrenen Vorführers imitieren. Das direkte Erlernen von Expertenstrategien ist jedoch möglicherweise nicht immer der beste Ansatz, da der intelligente Körper möglicherweise nicht gut auf unbekannte Situationen verallgemeinert werden kann. Um dieses Problem zu lösen, schlagen wir vor, einen intelligenten Körper mit kontextuellen Hinweisen oder impliziten Belohnungsfunktionen zu erlernen, die Schlüsselaspekte des Verhaltens des Experten einfangen, wie in Abbildung 3 dargestellt. Auf diese Weise werden die Intelligenzen mit unendlichem Speicher mit Verhaltensdaten aus der physischen Welt ausgestattet, die aus Expertendemonstrationen für die Aufgabenausführung gelernt wurden. Auf diese Weise lassen sich die Nachteile des bisherigen Nachahmungslernens überwinden, wie z. B. der Bedarf an großen Mengen von Expertendaten und das Fehlerpotenzial bei komplexen Aufgaben. Die Schlüsselidee hinter der KI des Intelligenten Körpers besteht aus zwei Komponenten: 1) dem Unendlichen Intelligenten Körper, der Expertendemonstrationen aus der physischen Welt als Zustands-Aktions-Paare sammelt, und 2) der virtuellen Umgebung des Imitationsgenerators des Intelligenten Körpers. Der Imitation Intelligent Body generiert Aktionen, die das Verhalten des Experten nachahmen, während der Intelligent Body eine Strategie erlernt, die Zustände auf Aktionen abbildet, indem er die Verlustfunktion der Differenz zwischen den Expertenaktionen und den durch die Lernstrategie generierten Aktionen reduziert.

Entkopplung → Verallgemeinerung

Anstatt sich auf aufgabenspezifische Belohnungsfunktionen zu verlassen, lernt der intelligente Körper von Expertendemonstrationen, die einen vielfältigen Satz von Zustands-Aktions-Paaren liefern, die verschiedene Aspekte der Aufgabe abdecken. Der intelligente Körper lernt dann Strategien für die Zuordnung von Zuständen zu Aktionen, indem er das Verhalten des Experten imitiert. Die Entkopplung beim Imitationslernen bezieht sich auf die Trennung des Lernprozesses von der aufgabenspezifischen Belohnungsfunktion, so dass die Strategien über verschiedene Aufgaben hinweg verallgemeinert werden können, ohne sich explizit auf die aufgabenspezifische Belohnungsfunktion zu verlassen. Durch Entkopplung kann ein intelligenter Mensch von Expertendemonstrationen lernen und eine Strategie erlernen, die an eine Vielzahl von Situationen angepasst werden kann. Die Entkopplung ermöglicht Transferlernen, bei dem eine in einem Bereich erlernte Strategie mit minimaler Feinabstimmung an andere Bereiche angepasst werden kann. Durch das Erlernen einer verallgemeinerten Strategie, die nicht an eine bestimmte Belohnungsfunktion gebunden ist, kann ein intelligenter Körper das in einer Aufgabe erworbene Wissen nutzen, um in anderen verwandten Aufgaben gute Leistungen zu erbringen. Da der intelligente Körper nicht von einer bestimmten Belohnungsfunktion abhängt, kann er sich an Veränderungen der Belohnungsfunktion oder der Umgebung anpassen, ohne dass ein umfangreiches Neutraining erforderlich ist. Dies macht die erlernten Strategien robuster und verallgemeinerungsfähig in verschiedenen Umgebungen. In diesem Zusammenhang bezieht sich die Entkopplung auf die Trennung von zwei Aufgaben im Lernprozess: das Erlernen der Belohnungsfunktion und das Erlernen der optimalen Strategie.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 3: Beispiel für einen emergenten Interaktionsmechanismus, der Intelligenzen zur Identifizierung von bildbezogenem Text aus Textkandidaten verwendet. Die Aufgabe umfasst die Integration von Informationen aus der Außenwelt unter Verwendung multimodaler KI-Intelligenzen aus dem Netzwerk und manuell gekennzeichneter Wissensinteraktionsmuster.

Verallgemeinerung → emergentes Verhalten

Die Verallgemeinerung erklärt, wie neue Eigenschaften oder Verhaltensweisen aus einfacheren Komponenten oder Regeln entstehen können. Der Kerngedanke besteht darin, die grundlegenden Elemente oder Regeln zu ermitteln, die das Verhalten des Systems steuern, wie z. B. einzelne Neuronen oder grundlegende Algorithmen. Man beobachtet also, wie diese einfachen Komponenten oder Regeln miteinander interagieren. Die Interaktionen dieser Komponenten führen oft zur Entstehung komplexer Verhaltensweisen, die sich durch die Untersuchung einzelner Komponenten allein nicht vorhersagen lassen. Die Verallgemeinerung über verschiedene Komplexitätsebenen hinweg ermöglicht es dem System, allgemeine Prinzipien zu erlernen, die auf diesen Ebenen gelten und zu neuen Eigenschaften führen. Auf diese Weise kann sich das System an neue Situationen anpassen und die Entstehung komplexerer Verhaltensweisen aus einfacheren Regeln demonstrieren. Darüber hinaus erleichtert die Fähigkeit, über verschiedene Komplexitätsebenen hinweg zu verallgemeinern, die Übertragung von Wissen von einer Domäne auf eine andere, was zur Entstehung komplexer Verhaltensweisen in neuen Umgebungen beiträgt, wenn sich das System anpasst.

2.2.5 Verbesserung der Argumentation

Die logischen Fähigkeiten von KI-Intelligenzen liegen in ihrer Fähigkeit, auf der Grundlage von Trainings- und Eingabedaten zu interpretieren, vorherzusagen und zu reagieren. Diese Fähigkeiten sind zwar fortgeschritten und werden immer besser, aber es ist wichtig, ihre Grenzen und die Auswirkungen der zugrunde liegenden Daten, auf denen sie trainiert werden, zu erkennen. Insbesondere im Zusammenhang mit Large Language Models (LLMs) bezieht sich dies auf deren Fähigkeit, Schlussfolgerungen zu ziehen, Vorhersagen zu treffen und Antworten zu generieren, die auf den Daten basieren, auf denen sie trainiert wurden, und auf den Eingaben, die sie erhalten.Reasoning Augmentation in AI-Intelligenzen bezieht sich auf die Verwendung zusätzlicher Tools, Techniken oder Daten, um die natürlichen Denkfähigkeiten einer AI zu erweitern, um ihre Leistung, Genauigkeit und ihren Nutzen zu verbessern. Dies ist besonders wichtig in komplexen Entscheidungsszenarien oder beim Umgang mit nuancierten oder spezialisierten Inhalten. Im Folgenden werden besonders wichtige Quellen für die Verbesserung des logischen Denkens aufgeführt:

Datenreichtum.

Die Einbeziehung zusätzlicher (oft externer) Datenquellen, die mehr Kontext oder Hintergrundinformationen liefern, kann KI-Intelligenzen dabei helfen, fundiertere Schlüsse zu ziehen, insbesondere in Bereichen, in denen ihre Trainingsdaten möglicherweise begrenzt sind. KI-Intelligenzen können zum Beispiel aus dem Kontext eines Dialogs oder Textes auf die Bedeutung schließen. Sie analysieren die gegebenen Informationen und nutzen sie, um die Absicht und die relevanten Details der Anfrage eines Nutzers zu verstehen. Diese Modelle sind gut im Erkennen von Mustern in Daten. Sie nutzen diese Fähigkeit, um aus den beim Training erlernten Mustern Informationen über Sprache, Nutzerverhalten oder andere relevante Phänomene abzuleiten.

Algorithmische Verbesserung.

Verbesserung der der KI zugrundeliegenden Algorithmen für eine bessere Argumentation. Dies kann die Verwendung fortschrittlicherer maschineller Lernmodelle, die Integration verschiedener Arten von KI (z. B. die Kombination von natürlicher Sprachverarbeitung (NLP) mit Bilderkennung) oder die Aktualisierung von Algorithmen zur besseren Bewältigung komplexer Aufgaben beinhalten. Bei der Sprachmodellierung geht es darum, menschliche Sprache zu verstehen und zu erzeugen. Dazu gehört das Erfassen von Tonfall, Absicht und den Nuancen verschiedener Sprachstrukturen.

Mensch in der Schleife (HITL).

Die Einbeziehung von Menschen zur Unterstützung der KI kann besonders in Bereichen nützlich sein, in denen menschliches Urteilsvermögen von entscheidender Bedeutung ist (z. B. bei ethischen Überlegungen, kreativen Aufgaben oder mehrdeutigen Szenarien). Menschen können Hilfestellungen geben, Fehler korrigieren oder Erkenntnisse liefern, die die Intelligenz allein nicht ableiten kann.

Integration von Feedback in Echtzeit.

Die Verwendung von Echtzeit-Feedback vom Benutzer oder der Umgebung zur Verbesserung der Argumentation ist ein weiterer vielversprechender Ansatz zur Verbesserung der Leistung während der Argumentation. So kann eine KI beispielsweise ihre Empfehlungen auf der Grundlage von Echtzeit-Benutzerreaktionen oder sich ändernden Bedingungen in einem dynamischen System anpassen. Wenn die KI in einer simulierten Umgebung eine Handlung vornimmt, die gegen bestimmte Regeln verstößt, kann ihr dynamisch Feedback gegeben werden, damit sie sich selbst korrigieren kann.

Fachübergreifender Wissenstransfer.

Die Verwendung von Wissen oder Modellen aus einem Bereich zur Verbesserung der Argumentation in einem anderen ist besonders nützlich, wenn Ergebnisse in spezialisierten Disziplinen erzeugt werden. So könnten beispielsweise Techniken, die für die Sprachübersetzung entwickelt wurden, auf die Codegenerierung angewendet werden, oder Erkenntnisse aus der medizinischen Diagnostik könnten die vorausschauende Wartung von Maschinen verbessern.

Individuelle Anpassung für spezifische Anwendungsfälle.

Die Anpassung der logischen Fähigkeiten einer KI an eine bestimmte Anwendung oder Branche kann bedeuten, dass die KI mit spezialisierten Datensätzen trainiert oder ihr Modell feinabgestimmt wird, damit es besser für eine bestimmte Aufgabe geeignet ist, z. B. für rechtliche Analysen, medizinische Diagnosen oder Finanzprognosen. Da spezifische Sprache oder Informationen innerhalb eines Bereichs im Gegensatz zu Sprache aus anderen Bereichen stehen können, kann eine Feinabstimmung der Intelligenz auf bereichsspezifisches Wissen von Vorteil sein.

Ethische Erwägungen und Befangenheit.

Es muss sichergestellt werden, dass der Verbesserungsprozess nicht zu neuen Verzerrungen oder ethischen Problemen führt. Dies erfordert eine sorgfältige Abwägung der Auswirkungen von zusätzlichen Datenquellen oder neuen Algorithmen zur Verbesserung des Denkens auf Fairness und Transparenz. KI-Intelligenzen müssen manchmal ethische Überlegungen anstellen, wenn sie Schlussfolgerungen ziehen, insbesondere bei sensiblen Themen. Dazu gehören die Vermeidung schädlicher Stereotypen, die Wahrung der Privatsphäre und die Gewährleistung von Fairness.

Kontinuierliches Lernen und Anpassung.

Regelmäßige Aktualisierung und Verfeinerung der KI-Funktionen, um mit neuen Entwicklungen, sich verändernden Datenlandschaften und sich wandelnden Nutzeranforderungen Schritt zu halten.

Zusammenfassend lässt sich sagen, dass die Erweiterung des logischen Denkens bei KI-Intelligenzen Methoden umfasst, um ihre natürlichen logischen Fähigkeiten durch zusätzliche Daten, verbesserte Algorithmen, menschliche Eingaben und andere Techniken zu verbessern. Je nach Anwendungsfall sind solche Erweiterungen oft entscheidend für die Bewältigung komplexer Aufgaben und die Gewährleistung der Genauigkeit der Ergebnisse der Intelligenzen.

2.2.6 Regelung

In letzter Zeit gab es erhebliche Fortschritte bei der KI für intelligente Körper und ihre Integration in verkörperte Systeme hat neue Möglichkeiten für die Interaktion mit intelligenten Körpern durch immersivere, dynamischere und ansprechendere Erfahrungen eröffnet. Um diesen Prozess zu beschleunigen und die mühsame Entwicklung intelligenter Körper-KI zu erleichtern, schlagen wir die Entwicklung einer KI-gestützten intelligenten Körper-Interaktionspipeline der nächsten Generation vor. Entwicklung eines Mensch-Maschine-Kollaborationssystems, das Menschen und Maschinen eine sinnvolle Kommunikation und Interaktion ermöglicht. Das System könnte die Konversationsfähigkeiten und die breite Palette von Aktionen eines Large Language Model (LLM) oder Visual Language Model (VLM) nutzen, um mit menschlichen Akteuren zu sprechen und menschliche Bedürfnisse zu erkennen. Anschließend führt es geeignete Aktionen durch, um den menschlichen Spieler bei Bedarf zu unterstützen.

Bei der Verwendung von Large Language Models (LLMs)/Visual Language Models (VLMs) für Mensch-Roboter-Kollaborationssysteme ist es wichtig zu beachten, dass diese Modelle als Blackboxen arbeiten und unvorhersehbare Ergebnisse liefern. Diese Ungewissheit kann in physischen Umgebungen (z. B. bei der Bedienung eines Roboters) kritisch werden. Eine Möglichkeit, dieser Herausforderung zu begegnen, besteht darin, den Fokus des Large Language Model (LLM)/Visual Language Model (VLM) durch Cue Engineering zu begrenzen. So wurde beispielsweise berichtet, dass bei der Planung von Roboteraufgaben auf der Grundlage von Anweisungen die Bereitstellung von Umgebungsinformationen in Hinweisen zu stabileren Ergebnissen führt als die alleinige Verwendung von Text Gramopadhye und Szafir (2022). Dieser Bericht wird durch Minskys KI-Rahmentheorie Minsky (1975) gestützt, die besagt, dass der von einem Large Language Model (LLM)/Visual Language Model (VLM) zu lösende Problemraum durch einen gegebenen Prompt definiert wird. Ein anderer Ansatz besteht darin, Prompts so zu gestalten, dass das Large Language Model (LLM)/Visual Language Model (VLM) erklärenden Text enthält, damit der Benutzer verstehen kann, worauf sich das Modell konzentriert oder was es erkennt. Darüber hinaus kann die Implementierung einer höheren Ebene, die eine menschengeführte Validierung und Änderung vor der Ausführung ermöglicht, den Betrieb von Systemen erleichtern, die unter einer solchen Anleitung arbeiten (Abbildung 4).

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 4: Das in Wake et al. (2023c) entwickelte Robotik-Lernsystem. (Links) Arbeitsablauf des Systems. Der Prozess besteht aus drei Schritten: Aufgabenplanung, die ChatGPT Planung von Roboteraufgaben auf der Grundlage von Befehlen und Umgebungsinformationen; Demonstration, bei der der Benutzer Handlungsabläufe visuell demonstriert. Alle Schritte werden vom Benutzer überprüft, und wenn ein Schritt fehlschlägt oder Fehler aufweist, können frühere Schritte bei Bedarf erneut durchgeführt werden. (rechts) Eine Webanwendung, die das Hochladen von Demodaten und die Interaktion zwischen dem Benutzer und ChatGPT ermöglicht.

2.3 Intelligente KI für neu entstehende Fähigkeiten

Trotz der zunehmenden Verbreitung von KI-Systemen mit interaktiver Intelligenz stehen die meisten der vorgeschlagenen Ansätze immer noch vor Herausforderungen, was die Generalisierungsleistung in unbekannten Umgebungen oder Szenarien angeht. Die derzeitigen Modellierungspraktiken erfordern, dass die Entwickler große Datensätze für jeden Bereich vorbereiten, um die Modelle fein abzustimmen/vorzutrainieren; dieser Prozess ist jedoch kostspielig oder sogar unmöglich, wenn der Bereich neu ist. Um dieses Problem zu lösen, haben wir interaktive Intelligenzen konstruiert, die den Wissensspeicher generischer Basismodelle (ChatGPT, Dall-E, GPT-4, etc.) für neue Szenarien nutzen, insbesondere um kollaborative Räume zwischen Menschen und Intelligenzen zu erzeugen. Wir identifizieren einen emergenten Mechanismus - den wir als gemischte Realität mit wissensbasierten Interaktionen bezeichnen - der die Zusammenarbeit mit Menschen zur Lösung anspruchsvoller Aufgaben in komplexen realen Umgebungen und die Fähigkeit zur Erkundung ungesehener Umgebungen zur Anpassung an die virtuelle Realität erleichtert. Für diesen Mechanismus lernen Intelligenzen i) modalitätsübergreifende Mikro-Reaktionen: durch das Sammeln von relevantem individuellem Wissen für jede Interaktionsaufgabe aus expliziten Netzwerkquellen (z. B. um ungesehene Szenarien zu verstehen) und durch implizites Ableiten aus der Ausgabe eines vorab trainierten Modells; und ii) Makro-Verhaltensweisen auf realitätsunabhängige Weise: durch Verfeinerung der Dimensionen und Muster der Interaktion sowohl in der sprachlichen als auch in der multimodalen Domäne und durch schlussfolgerndes Denken über die Rolle der Darstellungen, über bestimmte Zielvariablen, über die gemischte Realität und über die Einflussvielfalt der kollaborativen Informationen im Large Language Model (LLM). Wir untersuchen die Aufgabe der wissensgeleiteten Interaktionssynergien für die Szenariengenerierung in Zusammenarbeit mit verschiedenen OpenAI-Modellen und zeigen, wie das Interactive Intelligentsia-System vielversprechende Ergebnisse für große Basismodelle in unserem Setup weiter verbessern kann. Es integriert und verbessert die Generalisierungstiefe, das Bewusstsein und die Interpretierbarkeit von komplexen adaptiven KI-Systemen.

3 Paradigma der intelligenten Körper-KI

In diesem Abschnitt diskutieren wir ein neues Paradigma und einen neuen Rahmen für das Training von KI für Intelligenz. Wir hoffen, mit dem vorgeschlagenen Rahmen mehrere Ziele zu erreichen:

-
Mithilfe bestehender Vorschulungsmodelle und Vorschulungsstrategien werden unsere Intelligenzen effektiv dazu angeleitet, wichtige Modalitäten wie textuelle oder visuelle Eingaben zu verstehen.
-
Unterstützung einer angemessenen langfristigen Missionsplanungskapazität.
-
Einführung eines mnemotechnischen Rahmens, der es ermöglicht, das Gelernte zu kodieren und zu einem späteren Zeitpunkt wieder abzurufen.
-
Ermöglicht den Einsatz von Umgebungsrückmeldungen, um die Intelligenzen effektiv zu trainieren, damit sie lernen, welche Handlungen sie ausführen sollen.

Abbildung 5 zeigt ein übergeordnetes Diagramm von new intelligensia, das die wichtigsten Teilmodule eines solchen Systems skizziert.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abb. 5: Das von uns vorgeschlagene neue Paradigma des intelligenten Körpers für multimodale Allzweckintelligenz. Wie gezeigt, gibt es fünf Hauptmodule: 1) Umgebung und Wahrnehmung, einschließlich Aufgabenplanung und Beobachtung von Fähigkeiten; 2) Lernen mit dem intelligenten Körper; 3) Gedächtnis; 4) Handeln mit dem intelligenten Körper; und 5) Kognition.

3.1 Große Sprachmodelle und visuelle Sprachmodelle

Wir können entweder ein großes Sprachmodell (Large Language Model, LLM) oder ein visuelles Sprachmodell (Visual Language Model, VLM) verwenden, um die Komponenten eines intelligenten Körpers zu erstellen, wie in Abbildung 5 dargestellt. Es hat sich gezeigt, dass Large Language Models bei der Planung von Aufgaben gut abschneiden Gong et al. (2023a), eine große Menge an Weltwissen enthalten Yu et al. (2023b) und beeindruckende logische Schlussfolgerungen aufweisen Creswell et al. (2022). Darüber hinaus bieten visuelle Sprachmodelle wie CLIP Radford et al. (2021) einen generischen visuellen Kodierer, der auf die Sprache ausgerichtet ist und visuelle Erkennungsfähigkeiten ohne Probenahme bietet. Moderne multimodale Open-Source-Modelle wie LLaVA Liu et al. (2023c) und InstructBLIP Dai et al. (2023) basieren beispielsweise auf dem eingefrorenen CLIP-Modell als visuellem Kodierer.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 6: Wir zeigen das derzeitige Paradigma für die Schaffung multimodaler KI-Intelligenzen durch die Kombination großer Sprachmodelle (LLMs) mit großen visuellen Modellen (LVMs). In der Regel erhalten diese Modelle visuellen oder sprachlichen Input und verwenden vortrainierte und eingefrorene visuelle und sprachliche Modelle, um zu lernen, kleinere Teilnetze von Modalitäten zu verbinden und zu überbrücken. Beispiele sind Flamingo Alayrac et al. (2022), BLIP-2 Li et al. (2023c), InstructBLIP Dai et al. (2023) und LLaVA Liu et al.

3.2 Definition des intelligenten Transformators

Neben der Verwendung von eingefrorenen makrosprachlichen Modellen und visuellen Sprachmodellen als KI-Intelligenzen kann eine einzige Intelligenz verwendet werden Transformator Modell, das die visuellen Aspekte Token und linguistische Token als Eingaben, ähnlich wie bei Gato Reed et al. (2022). Zusätzlich zu den visuellen und sprachlichen Inputs fügen wir einen dritten generischen Input-Typ hinzu, den wir folgendermaßen bezeichnenintelligenter Körper Token: Ein Token für einen intelligenten Körper wird verwendet, um einen bestimmten Unterraum für das Verhalten eines intelligenten Körpers im Eingabe- und Ausgaberaum eines Modells zu reservieren. Bei Robotern oder Spielen kann dies als der Eingabe-Aktionsraum des Controllers dargestellt werden. Intelligent Body Token kann auch verwendet werden, wenn ein intelligenter Körper für die Verwendung eines bestimmten Tools trainiert wird, z. B. für ein Modell zur Bilderzeugung oder Bildbearbeitung, oder für andere API-Aufrufe, wie in Abbildung 7 gezeigt, wo wir Intelligent Body Token mit visuellen und linguistischen Token kombinieren können, um eine einheitliche Schnittstelle für das Training multimodaler intelligenter Körper-KI zu schaffen. Die Verwendung des Intelligent Body Transformer hat mehrere Vorteile gegenüber der Verwendung eines großen proprietären Sprachmodells als intelligenter Körper. Erstens kann das Modell leicht an sehr spezifische Aufgaben des intelligenten Körpers angepasst werden, die sich nur schwer in natürlicher Sprache darstellen lassen (z. B. Eingaben der Steuerung oder andere spezifische Aktionen). Auf diese Weise kann die Intelligenz aus den Interaktionen mit der Umgebung und den bereichsspezifischen Daten lernen, um ihre Leistung zu verbessern. Zweitens kann durch den Zugriff auf die Wahrscheinlichkeiten der Token eines intelligenten Körpers leichter verstanden werden, warum ein Modell eine bestimmte Aktion ausführt oder nicht. Drittens bestehen in bestimmten Bereichen (z. B. Gesundheitswesen und Recht) strenge Anforderungen an den Datenschutz. Und schließlich kann ein relativ kleiner Intelligent Body Transformer viel billiger sein als ein größeres proprietäres Sprachmodell.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abb. 7: Einheitliches multimodales Transformer-Modell für intelligente Systeme. Anstatt eingefrorene Untermodule zu verbinden und bestehende Basismodelle als Bausteine zu verwenden, schlagen wir ein einheitliches End-to-End-Trainingsparadigma für intelligente Körpersysteme vor. Wir können immer noch Untermodule mit dem großen Sprachmodell und dem großen Sichtmodell in Abbildung 6 initialisieren, aber wir können auch SmartBody-Token verwenden, die spezialisierte Token sind, die verwendet werden, um Modelle zu trainieren, die SmartBody-Verhaltensweisen in bestimmten Domänen (z. B. Robotik) ausführen.

3.3 Erstellung eines Transformators

Wie in Abbildung 5 dargestellt, können wir das neue Paradigma des intelligenten Körpers mit intelligenten Körpern verwenden, die von großen Sprachmodellen und visuellen Sprachmodellen geführt werden, und die vom großen Basismodell erzeugten Daten verwenden, um das Modell des intelligenten Körpertransformators zu trainieren, damit es lernt, bestimmte Ziele zu erreichen. Dabei werden die intelligenten Körpermodelle so trainiert, dass sie speziell auf bestimmte Aufgaben und Domänen zugeschnitten sind. Mit diesem Ansatz können Sie Merkmale und Wissen aus bereits vorhandenen Basismodellen nutzen. Im Folgenden zeigen wir einen vereinfachten Überblick über den Prozess in zwei Schritten:

Definieren Sie Ziele innerhalb des Bereichs.

Um einen Transformator für einen intelligenten Körper zu trainieren, muss der Ziel- und Aktionsraum des intelligenten Körpers in jeder bestimmten Umgebung explizit definiert werden. Dazu gehört auch die Bestimmung der spezifischen Aufgaben oder Aktionen, die die Intelligenz ausführen muss, und die Zuweisung eindeutiger Intelligenz-Token für jede Aufgabe oder Aktion. Darüber hinaus können automatisierte Regeln oder Verfahren, die zur Erkennung der erfolgreichen Erledigung von Aufgaben verwendet werden können, die für das Training verfügbare Datenmenge erheblich vergrößern. Andernfalls werden vom Basismodell generierte Daten oder manuell beschriftete Daten zum Trainieren des Modells benötigt. Sobald die Daten gesammelt sind und die Leistung der Intelligenzen bewertet werden kann, kann der Prozess der kontinuierlichen Verbesserung beginnen.

Kontinuierliche Verbesserung.

Die kontinuierliche Überwachung der Leistung des Modells und das Einholen von Feedback sind grundlegende Schritte in diesem Prozess. Die Rückmeldungen sollten für die weitere Feinabstimmung und Aktualisierung genutzt werden. Es muss auch sichergestellt werden, dass das Modell keine verzerrten oder unethischen Ergebnisse liefert. Dazu ist es erforderlich, die Trainingsdaten zu prüfen, die Ergebnisse regelmäßig auf Verzerrungen zu untersuchen und das Modell bei Bedarf so zu trainieren, dass Verzerrungen erkannt und vermieden werden. Sobald das Modell eine zufriedenstellende Leistung erreicht hat, kann es für die vorgesehene Anwendung eingesetzt werden. Eine kontinuierliche Überwachung ist von entscheidender Bedeutung, um sicherzustellen, dass das Modell die erwartete Leistung erbringt, und um notwendige Anpassungen zu erleichtern. Weitere Einzelheiten zu diesem Prozess, zu Quellen für Trainingsdaten und zum kontinuierlichen Lernen von KI für Intelligenzen finden Sie in Abschnitt 8.

4 Intelligente Körper KI Lernen

4.1 Strategien und Mechanismen

Strategien für interaktive KI in verschiedenen Bereichen erweitern das Paradigma der Verwendung ausgebildeter Intelligenzen, die aktiv versuchen, Nutzerfeedback, Handlungsinformationen und nützliches Wissen für die Generierung und Interaktion zu sammeln, um große Basismodelle aufzurufen. Manchmal ist es nicht notwendig, das große Sprachmodell/visuelle Sprachmodell neu zu trainieren, und wir verbessern die Leistung der Intelligenzen, indem wir sie zum Testzeitpunkt mit besseren kontextuellen Hinweisen versorgen. Andererseits geht es immer um die Modellierung von Wissen/Vernunft/Gesundheitssinn/Vernunft-Interaktionen durch eine Kombination ternärer Systeme - ein System führt die Wissensabfrage aus Multi-Modell-Abfragen durch, das zweite führt die Interaktionsgenerierung aus relevanten Intelligenzen durch, und das letzte trainiert neues, informationsreiches selbstüberwachtes Training oder Pre-Training auf verbesserte Weise, einschließlich Verstärkungslernen oder Nachahmungslernen.

4.1.1 Verstärkung des Lernens (RL)

Das Verstärkungslernen (Reinforcement Learning, RL) wird seit langem eingesetzt, um interaktive Intelligenzen zu trainieren, die intelligentes Verhalten zeigen. Verstärkungslernen ist eine Methode zum Erlernen der optimalen Beziehung zwischen Zuständen und Aktionen auf der Grundlage der Belohnungen (oder Bestrafungen), die sie für ihre Aktionen erhalten. Verstärkungslernen ist ein hochgradig skalierbarer Rahmen, der für eine breite Palette von Anwendungen, einschließlich der Robotik, eingesetzt wurde. Allerdings ist es in der Regel mit einigen Problemen der Spitzengruppe konfrontiert, und große Sprachmodelle/visuelle Sprachmodelle haben ihr Potenzial gezeigt, einige dieser Schwierigkeiten zu mildern oder zu überwinden:

BelohnungsdesignDie Effizienz des Strategielernens hängt stark von der Gestaltung der Belohnungsfunktion ab. Die Gestaltung einer Belohnungsfunktion erfordert nicht nur ein Verständnis des Algorithmus für das Verstärkungslernen, sondern auch eine eingehende Kenntnis der Art der Aufgabe und erfordert daher in der Regel die Gestaltung der Funktion auf der Grundlage von Expertenerfahrung. Mehrere Studien haben die Verwendung von großen Sprachmodellen/visuellen Sprachmodellen zur Entwicklung von Belohnungsfunktionen untersucht Yu et al. (2023a); Katara et al. (2023); Ma et al.
Datenerhebung und Effizienz Aufgrund seines explorativen Charakters erfordert das auf Verstärkungslernen basierende Strategielernen große Datenmengen Padalkar et al. (2023). Der Bedarf an großen Datenmengen wird besonders deutlich, wenn die Strategie die Verwaltung langer Sequenzen oder die Integration komplexer Vorgänge beinhaltet. Dies liegt daran, dass diese Szenarien eine differenziertere Entscheidungsfindung und das Lernen aus einer größeren Anzahl von Situationen erfordern. In neueren Studien wurden Anstrengungen unternommen, die Datengenerierung zur Unterstützung des Strategielernens zu verbessern Kumar et al. (2023); Du et al. In einigen Studien wurden diese Modelle außerdem in Belohnungsfunktionen integriert, um das Strategielernen zu verbessern Sontakke et al. (2023). Parallel zu diesen Entwicklungen konzentrierte sich eine andere Studie auf die Erzielung von Parametereffizienz im Lernprozess unter Verwendung visueller Sprachmodelle Tang et al. (2023); Li et al. (2023d) und eines großen Sprachmodells Shi et al. (2023).
Längsschritt Was die Dateneffizienz betrifft, so wird das Verstärkungslernen mit zunehmender Länge der Aktionssequenzen immer schwieriger. Dies liegt an der unklaren Beziehung zwischen Aktionen und Belohnungen (bekannt als das Problem der Kreditvergabe) sowie an der Zunahme der Anzahl der zu untersuchenden Zustände, was eine erhebliche Menge an Zeit und Daten erfordert. Ein typischer Ansatz für lange und komplexe Aufgaben besteht darin, sie in eine Reihe von Teilzielen zu zerlegen und vortrainierte Strategien zur Lösung jedes Teilziels anzuwenden (z. B. Takamatsu et al. (2022)). Diese Idee gehört zum Task and Motion Planning (TAMP) Framework von Garrett et al. (2021). Die Aufgaben- und Bewegungsplanung besteht aus zwei Hauptkomponenten: der Aufgabenplanung, bei der hochrangige Operationssequenzen festgelegt werden, und der Bewegungsplanung, bei der es darum geht, physikalisch konsistente, kollisionsfreie Trajektorien zu finden, um die Ziele des Aufgabenplans zu erreichen. Große Sprachmodelle eignen sich gut für die Aufgaben- und Bewegungsplanung, und in der neueren Forschung wird typischerweise der Ansatz verfolgt, dass die Aufgabenplanung auf hoher Ebene mit großen Sprachmodellen durchgeführt wird, während die Steuerung auf niedriger Ebene durch auf Verstärkungslernen basierende Strategien gelöst wird Xu et al. (2023); Sun et al. (2023a); Li et al. (2023b); Parakh et al. Die fortschrittlichen Eigenschaften großer Sprachmodelle ermöglichen es ihnen, abstrakte Anweisungen effizient in Teilziele zu zerlegen Wake et al. (2023c), was zu einem verbesserten Sprachverständnis in Robotersystemen beiträgt.

4.1.2 Imitationslernen (IL)

Während das Verstärkungslernen darauf abzielt, Strategien zu trainieren, die auf der Erkundung von Verhaltensweisen und der Maximierung der Belohnungen für die Interaktion mit der Umwelt beruhen, zielt das Imitationslernen (IL) darauf ab, Expertendaten zu nutzen, um die Verhaltensweisen erfahrener Intelligenzen oder Experten zu imitieren. Eines der wichtigsten Konzepte für imitationsbasiertes Lernen in der Robotik ist beispielsweise das Klonen von Verhaltensweisen (BC). Behavioural Cloning ist eine Methode, mit der ein Roboter trainiert wird, die Handlungen eines Experten durch direktes Kopieren nachzuahmen. Bei diesem Ansatz werden die Handlungen eines Experten bei der Ausführung einer bestimmten Aufgabe aufgezeichnet, und der Roboter wird darauf trainiert, diese Handlungen in ähnlichen Situationen zu wiederholen. Neuere Ansätze, die auf dem Klonen von Verhaltensweisen basieren, kombinieren in der Regel Techniken aus dem großen Sprachmodell und dem visuellen Sprachmodell, was zu fortgeschritteneren End-to-End-Modellen führt. Brohan et al. stellen beispielsweise RT-1 Brohan et al. (2022) und RT-2 Brohan et al. (2023) vor, auf Transformer basierende Modelle, die eine Reihe von Bildern und Sprache als Eingabe und Ausgabe von Sequenzen von Basis- und Armaktionen verwenden. Es wird berichtet, dass diese Modelle eine hohe Generalisierungsleistung aufweisen, da sie mit einer großen Menge von Trainingsdaten trainiert wurden.

4.1.3 Traditionelles RGB

Das Erlernen intelligenten Körperverhaltens anhand von Bildeingaben ist seit vielen Jahren von Interesse Mnih et al. (2015). Die inhärente Herausforderung bei der Verwendung von RGB-Eingaben ist die Dimensionalitätskatastrophe. Um dieses Problem zu lösen, haben Forscher entweder mehr Daten verwendet (Jang et al. (2022); Ha et al. (2023)) oder eine induktive Verzerrung im Modelldesign eingeführt, um die Stichprobeneffizienz zu verbessern. Insbesondere integrieren die Autoren 3D-Strukturen in die für die Manipulation verwendete Modellarchitektur Zeng et al. (2021); Shridhar et al. (2023); Goyal et al. (2023); James und Davison (2022). Für die Roboternavigation verwenden die Autoren Chaplot et al. (2020a, b) Karten als Repräsentation. Karten können durch neuronale Netze erlernt werden, die alle früheren RGB-Eingaben aggregieren, sowie durch 3D-Rekonstruktionsmethoden wie neuronale Strahlungsfelder Rosinol et al. (2022).

Um mehr Daten zu erhalten, haben Forscher grafische Simulatoren verwendet, um synthetische Daten zu synthetisieren Mu et al. (2021); Gong et al. (2023b) und haben versucht, die sim2real-Lücke zu schließen Tobin et al. (2017); Sadeghi und Levine (2016); Peng et al. (2018). In jüngster Zeit wurden konzertierte Anstrengungen unternommen, große Datensätze zu kuratieren, um das Problem der Datenknappheit zu lösen Padalkar et al. (2023); Brohan et al. Andererseits wurden auch Techniken zur Datenanreicherung ausgiebig untersucht, um die Komplexität der Stichproben zu erhöhen Zeng et al. (2021); Rao et al. (2020); Haarnoja et al. (2023); Lifshitz et al.

4.1.4 Lernen im Kontext

Kontextlernen hat sich als effektive Methode zur Lösung von Aufgaben der natürlichen Sprachverarbeitung mit großen Sprachmodellen wie GPT-3 Brown et al. (2020); Min et al. (2022) erwiesen. Durch die Bereitstellung von Aufgabenbeispielen im Kontext der großen Sprachmodell-Prompts zeigt sich, dass stichprobenlose Prompts eine wirksame Methode zur Kontextualisierung der Modellausgabe bei einer Vielzahl von Aufgaben in der natürlichen Sprachverarbeitung sind. Faktoren wie die Vielfalt der Beispiele und die Qualität der im Kontext präsentierten Beispiele können die Qualität der Modellausgabe verbessern An et al. (2023); Dong et al. (2022). Im Zusammenhang mit multimodalen Basismodellen, bei denen nur eine kleine Anzahl von Beispielen gegeben wird, haben sich Modelle wie Flamingo und BLIP-2 Alayrac et al. (2022); Li et al. (2023c) bei einer Vielzahl von visuellen Verständnisaufgaben als effektiv erwiesen. Das kontextuelle Lernen von Intelligenzen in der Umwelt kann weiter verbessert werden, indem kontextspezifisches Feedback integriert wird, wenn bestimmte Aktionen ausgeführt werden Gong et al. (2023a).

4.1.5 Optimierung in intelligenten Körpersystemen

Die Optimierung von intelligenten Körpersystemen kann in räumliche und zeitliche Aspekte unterteilt werden. Bei der räumlichen Optimierung geht es darum, wie intelligente Körper im physischen Raum arbeiten, um Aufgaben zu erfüllen. Dazu gehören die Koordination zwischen Robotern, die Ressourcenzuweisung und die Aufrechterhaltung eines organisierten Raums.

Um KI-Systeme mit intelligenten Körpern effektiv zu optimieren, insbesondere solche, in denen eine große Anzahl von Intelligenzen parallel arbeitet, haben sich frühere Arbeiten auf die Verwendung von Verstärkungslernen mit hohem Volumen konzentriert Shacklett et al. (2023). Da aufgabenspezifische Datensätze für die Interaktion zwischen mehreren intelligenten Körpern selten sind, ermöglicht das selbstspielende Verstärkungslernen Teams von intelligenten Körpern, sich im Laufe der Zeit zu verbessern. Dies kann jedoch auch zu sehr anfälligen Intelligenzen führen, die nur unter Self-Gaming funktionieren und nicht mit Menschen oder anderen unabhängigen Intelligenzen, weil sie das Self-Gaming-Trainingsparadigma überfordern. Um dieses Problem zu lösen, können wir stattdessen eine Reihe verschiedener Konventionen entdecken (Cui et al. (2023); Sarkar et al. (2023)) und eine Intelligenz trainieren, die die verschiedenen Konventionen versteht. Das Basismodell kann darüber hinaus dabei helfen, Konventionen mit Menschen oder anderen unabhängigen Intelligenzen zu etablieren, was eine reibungslose Koordination mit neuen Intelligenzen ermöglicht.

Die zeitliche Optimierung hingegen konzentriert sich darauf, wie Intelligenzen Aufgaben im Laufe der Zeit ausführen. Dazu gehören die Planung von Aufgaben, die Sequenzierung und die Effizienz der Zeitachse. Die Optimierung der Flugbahn eines Roboterarms ist ein Beispiel für die effiziente Optimierung der Bewegung zwischen aufeinanderfolgenden Aufgaben Zhou et al. (2023c). Auf der Ebene der Aufgabenplanung werden Algorithmen wie LLM-DP Dagan et al. (2023) und ReAct Ansätze wie Yao et al. (2023a) befassen sich mit einer effektiven Aufgabenplanung durch die interaktive Integration von Umweltfaktoren.

4.2 Agentensysteme (Null- und wenige Stichproben)

4.2.1 Agentenmodul

Unsere erste Erforschung des Agentenparadigmas umfasste die Entwicklung von Agenten-KI-"Modulen" für interaktive multimodale Agenten, die entweder das Large Language Model (LLM) oder das Visual Language Model (VLM) verwenden. Unsere anfänglichen Agentenmodule tragen zum Training oder zum kontextuellen Lernen bei und haben ein minimalistisches Design, das darauf abzielt, die Fähigkeit eines Agenten zu demonstrieren, effektiv zu planen und zu koordinieren. Wir haben auch erste cue-basierte Gedächtnistechniken erforscht, die zu einer besseren Planung beitragen und künftige Handlungsmethoden in diesem Bereich informieren. Zur Veranschaulichung besteht unsere "MindAgent"-Infrastruktur aus fünf Hauptmodulen: 1) Umgebungsbewusstsein mit Aufgabenplanung, 2) Agentenlernen, 3) Gedächtnis, 4) generische Agentenaktionsvorhersage und 5) Kognition, wie in Abbildung 5 dargestellt.

4.2.2 Agenten-Infrastruktur

Agentenbasierte KI ist eine große und schnell wachsende Gemeinschaft in Unterhaltung, Forschung und Industrie. Die Entwicklung groß angelegter Basismodelle hat die Leistung von agentenbasierten KI-Systemen erheblich verbessert. Die Erstellung von Agenten auf diese Weise wird jedoch durch den zunehmenden Arbeitsaufwand und die Gesamtkosten begrenzt, die für die Erstellung hochwertiger Datensätze erforderlich sind. Bei Microsoft hat der Aufbau einer hochwertigen Agenteninfrastruktur durch den Einsatz fortschrittlicher Hardware, verschiedener Datenquellen und robuster Softwarebibliotheken einen erheblichen Einfluss auf das multimodale Co-Piloting von Agenten gehabt. Da Microsoft die Grenzen der Agententechnologie immer weiter verschiebt, wird erwartet, dass die KI-Agentenplattform auch in den kommenden Jahren eine dominierende Kraft im Bereich der multimodalen Intelligenz sein wird. Nichtsdestotrotz bleibt die Interaktion mit Agenten ein komplexer Prozess, der eine Kombination von Fähigkeiten erfordert. Jüngste Fortschritte auf dem Gebiet der generativen KI-Modellierung in großem Maßstab haben das Potenzial, die hohen Kosten und den Zeitaufwand, die derzeit für interaktive Inhalte erforderlich sind, erheblich zu senken, und zwar sowohl für große Studios als auch für kleinere, unabhängige Inhaltsersteller, die damit in der Lage sind, qualitativ hochwertige Erlebnisse zu gestalten, die ihre derzeitigen Möglichkeiten übersteigen. Multimodale Agenten im Inneren Aktuelle HCI-Systeme sind weitgehend regelbasiert. Sie verfügen über intelligente Verhaltensweisen, die auf die Handlungen des Menschen/Benutzers reagieren und über ein gewisses Maß an Netzwerkwissen verfügen. Diese Interaktionen sind jedoch häufig durch die Kosten der Softwareentwicklung begrenzt, was die Implementierung spezifischer Verhaltensweisen in das System verhindert. Darüber hinaus sind die derzeitigen Modelle nicht darauf ausgelegt, den Benutzern zu helfen, ihre Ziele in Situationen zu erreichen, in denen sie nicht in der Lage sind, eine bestimmte Aufgabe auszuführen. Daher ist eine Agenten-KI-Systeminfrastruktur erforderlich, um das Benutzerverhalten zu analysieren und bei Bedarf angemessene Unterstützung zu bieten.

4.3 Agentenbasierte Basismodelle (Vorschulungs- und Feinabstimmungsebene)

Die Verwendung von vortrainierten Basismodellen bietet erhebliche Vorteile im Hinblick auf eine breite Anwendbarkeit in einer Vielzahl von Anwendungsfällen. Die Integration dieser Modelle ermöglicht die Entwicklung maßgeschneiderter Lösungen für eine breite Palette von Anwendungen, wodurch die Notwendigkeit entfällt, für jede spezifische Aufgabe große gelabelte Datensätze zu erstellen.

Ein bemerkenswertes Beispiel im Bereich der Navigation ist das LM-Nav-System Shah et al. (2023a), das GPT-3 und CLIP in einem neuen Ansatz kombiniert. Es nutzt effektiv textuelle Orientierungspunkte, die von einem Sprachmodell generiert werden, und verankert sie in vom Roboter aufgenommenen Bildern zur Navigation. Dieser Ansatz demonstriert die nahtlose Verschmelzung von textuellen und visuellen Daten, wodurch die Navigationsfähigkeit des Roboters deutlich verbessert wird und gleichzeitig eine breite Anwendbarkeit gewährleistet ist.

Für die Robotermanipulation haben mehrere Studien die Verwendung von Standard-LLMs (z. B. ChatGPT) in Verbindung mit einem Objektdetektor mit offenem Vokabular vorgeschlagen. Die Kombination von LLMs und High-Level-Objektdetektoren (z. B. Detic Zhou et al. (2022)) kann dabei helfen, menschliche Befehle zu verstehen und gleichzeitig die Textinformationen in die Szeneninformationen einzuordnen Parakh et al. ). Darüber hinaus zeigen jüngste Fortschritte das Potenzial der Verwendung von Cue Engineering in Verbindung mit fortgeschrittenen multimodalen Modellen wie GPT-4V(ision) Wake et al. (2023b). Diese Technik eröffnet den Weg zur multimodalen Aufgabenplanung und unterstreicht die Vielseitigkeit und Anpassungsfähigkeit von vortrainierten Modellen in einer Vielzahl von Umgebungen.

5 Agenten-KI-Klassifizierung

5.1 Generischer Agentenbereich

Computergestützte Aktionen und generalisierte Agenten (GA) sind für viele Aufgaben nützlich. Jüngste Fortschritte auf dem Gebiet der groß angelegten Basismodelle und der interaktiven KI haben neue Möglichkeiten für GA geschaffen. Damit GA jedoch für ihre Nutzer wirklich wertvoll sind, müssen sie einfach zu bedienen sein und sich auf eine Vielzahl von Umgebungen und Modalitäten verallgemeinern lassen. Wir erweitern die Hauptkapitel über agentenbasierte KI in Abschnitt 6 mit hoher Qualität, insbesondere in Bereichen, die mit diesen Themen im Allgemeinen zusammenhängen:

Multimodale Agenten-KI (MMA) ist ein künftiges Forum ^1^^^1^ Aktuelle URL: https://multimodalagentai.github.io/ für unsere Forschungs- und Industriegemeinschaften zur Interaktion untereinander und mit der breiteren Agenten-KI-Forschungs- und Technologiegemeinschaft. Jüngste Fortschritte auf dem Gebiet groß angelegter grundlegender Modelle und interaktiver KI haben neue Fähigkeiten für General Purpose Agents (GA) ermöglicht, wie z. B. die Vorhersage von Nutzerverhalten und Aufgabenplanung in eingeschränkten Umgebungen (z. B. MindAgent Gong et al. (2023a), feinkörniges multimodales Videoverständnis Luo et al. (2022), Robotik Ahn et al. (2022b); Brohan et al. (2023)), oder die Bereitstellung von Chat-Begleitern, die Wissensrückmeldungen enthalten (z. B. webbasierte Kundenbetreuung für Gesundheitssysteme Peng et al. (2023)). Ausführlichere Informationen über repräsentative und neuere repräsentative Arbeiten finden Sie weiter unten. Wir hoffen, unsere Vision für die Zukunft der MAA zu diskutieren und künftige Forscher zu inspirieren, auf diesem Gebiet zu arbeiten. Dieses Papier und unser Forum decken die folgenden Hauptthemen ab, sind aber nicht auf sie beschränkt:

Hauptthemen: Multimodale Agenten-KI, generische Agenten-KI
Sekundäres Thema: Verkörperte Agenten, Bewegungsagenten, sprachbasierte Agenten, visuelle und sprachliche Agenten, wissensbasierte und logische Agenten, Agenten für Spiele, Robotik, Gesundheitswesen usw.
Erweitertes Thema: Visuelle Navigation, simulierte Umgebungen, Umstrukturierung, agentenbasierte Modelle, VR/AR/MR, verkörperte Sicht und Sprache.

Als Nächstes führen wir die folgenden repräsentativen Agentenkategorien auf:

5.2 Possessiv-Agent

Unser biologisches Gehirn existiert in unserem Körper, und unser Körper bewegt sich in einer sich ständig verändernden Welt. Das Ziel der verkörperten KI ist die Entwicklung von Agenten, z. B. Robotern, die lernen, anspruchsvolle Aufgaben, die eine Interaktion mit der Umwelt erfordern, kreativ zu lösen. Dies ist zwar eine große Herausforderung, aber die großen Fortschritte im Bereich des Deep Learning und die zunehmende Verfügbarkeit großer Datensätze wie ImageNet haben übermenschliche Leistungen bei einer Vielzahl von KI-Aufgaben ermöglicht, die früher als schwer zu bewältigen galten. Computer Vision, Spracherkennung und die Verarbeitung natürlicher Sprache haben sich bei passiven Input-Output-Aufgaben wie der Sprachübersetzung und der Bildkategorisierung grundlegend gewandelt, während das Reinforcement Learning bei interaktiven Aufgaben wie Spielen Weltklasseleistungen erzielt hat. Diese Fortschritte geben einen starken Impuls für die verkörperte KI, die es immer mehr Nutzern ermöglicht, sich schnell auf intelligente Agenten zuzubewegen, die mit Maschinen interagieren können.

5.2.1 Action Agent

Action Agents sind Agenten, die physische Aktionen in einer simulierten physischen Umgebung oder in der realen Welt durchführen müssen; insbesondere müssen sie aktiv in Aktivitäten mit der Umgebung involviert sein. Wir klassifizieren Action Agents grob in zwei verschiedene Kategorien, basierend auf ihren Anwendungsbereichen: Spiele-KI und Robotik.

Bei der Spiele-KI interagiert der Agent mit der Spielumgebung und anderen unabhängigen Einheiten. In diesen Umgebungen ermöglicht die natürliche Sprache eine reibungslose Kommunikation zwischen Agent und Mensch. Je nach Spiel gibt es eine bestimmte Aufgabe zu erfüllen, die ein echtes Belohnungssignal darstellt. In einem kompetitiven Diplomatiespiel beispielsweise kann das Training eines Sprachmodells anhand menschlicher Dialogdaten und Handlungsstrategien mit Hilfe von Verstärkungslernen Spiele auf menschlichem Niveau ermöglichen Meta Fundamental AI Research Diplomacy Team et al. (2022) Meta Fundamental AI Research (FAIR ) Diplomacy Team, Bakhtin, Brown, Dinan, Farina, Flaherty, Fried, Goff, Gray, Hu, et al. (FAIR).

In einigen Fällen verhalten sich die Agenten wie normale Einwohner einer Stadt Park et al. (2023a), ohne zu versuchen, für bestimmte Ziele zu optimieren. Basismodelle sind in diesen Fällen nützlich, weil sie natürlichere Interaktionen simulieren können, indem sie das menschliche Verhalten nachahmen. Wenn sie mit externem Speicher erweitert werden, können sie überzeugende Agenten hervorbringen, die Gespräche führen, tägliche Aktivitäten planen, Beziehungen aufbauen und ein virtuelles Leben führen können.

5.2.2 Interaktiver Agent

Interaktive Agenten beziehen sich einfach auf Agenten, die mit der Welt interagieren können, d.h. eine breitere Klasse von Agenten als Aktionsagenten, deren Form der Interaktion nicht unbedingt einePhysiotherapieAktionen, sondern kann auch die Vermittlung von Informationen an den Benutzer oder die Veränderung der Umgebung beinhalten. Ein verkörperter interaktiver Agent könnte zum Beispiel die Fragen eines Benutzers zu einem Thema im Dialog beantworten oder dem Benutzer helfen, vorhandene Informationen zu analysieren, ähnlich wie ein Chatbot. Durch die Erweiterung der Fähigkeiten des Agenten um die Weitergabe von Informationen können das Kerndesign und die Algorithmen der Agenten-KI effektiv an eine Reihe von Anwendungen angepasst werden, z. B. an die Diagnostik Lee et al. (2023) und den Wissensabfrage-Agenten Peng et al.

5.3 Simulation und Umweltagent

Ein effektiver Weg für einen KI-Agenten zu lernen, wie er sich in einer Umgebung verhalten soll, ist die Erfahrung wiederholter Versuche, mit der Umgebung zu interagieren. Ein repräsentativer Ansatz ist das Verstärkungslernen (Reinforcement Learning, RL), das eine große Anzahl von Fehlern erfordert, um den Agenten zu trainieren. Es gibt zwar Methoden, die physische Agenten verwenden Kalashnikov et al. (2018), aber die Verwendung physischer Agenten ist sowohl zeitaufwändig als auch teuer. Wenn Fehler in realen Umgebungen gefährlich sein können (z. B. autonomes Fahren, Unterwasserfahrzeuge), ist das Training in physischen Umgebungen zudem oft nicht möglich. Daher ist die Verwendung von Simulatoren zum Erlernen von Strategien ein gängiger Ansatz.

Für die Forschung im Bereich der verkörperten KI wurde eine Reihe von Simulationsplattformen vorgeschlagen, die von der Navigation Tsoi et al. (2022); Deitke et al. (2020); Kolve et al. (2017) bis zur Objektmanipulation Wang et al. (2023d); Mees et al. (2022); Yang et al. (2023a); Ehsani et al. (2021). Ein Beispiel ist Habitat Savva et al. (2019); Szot et al. (2021), das eine 3D-Innenraumumgebung bereitstellt, in der menschliche und robotische Agenten verschiedene Aufgaben wie Navigation, Befolgung von Befehlen und Beantwortung von Fragen ausführen können. Eine weitere repräsentative Simulationsplattform ist VirtualHome Puig et al. (2018), die menschliche Avatare dabei unterstützt, Objekte in einer 3D-Innenraumumgebung zu manipulieren. Im Bereich der Spiele stellten Carroll et al. "Overcooked-AI" vor, eine Benchmark-Umgebung, die für die Untersuchung kooperativer Aufgaben zwischen Menschen und KI entwickelt wurde Carroll et al. (2019). In ähnlicher Weise zielen einige Arbeiten darauf ab, über den Fokus auf die Interaktion zwischen Agent und Umgebung hinaus echte menschliche Interventionen einzubeziehen Puig et al. (2023); Li et al. (2021a); Srivastava et al. (2022). Diese Simulatoren erleichtern das Erlernen von Strategien in realen Umgebungen, die Interaktionen zwischen Agenten und Robotern beinhalten, sowie das IL-basierte Erlernen von Strategien unter Verwendung menschlicher Demonstrationshandlungen.

In einigen Fällen kann der Prozess des Erlernens von Strategien die Integration spezieller Funktionen in den Simulator erfordern. Zum Beispiel ist beim Erlernen bildbasierter Strategien oft ein realistisches Rendering erforderlich, um die Anpassung an reale Umgebungen zu erleichtern Mittal et al. (2023); Zhong et al. (2023). Die Verwendung einer realistischen Rendering-Engine ist effektiv, um Bilder zu erzeugen, die eine Vielzahl von Bedingungen (z. B. Beleuchtungsumgebungen) widerspiegeln. Darüber hinaus werden Simulatoren mit Physik-Engines benötigt, um physikalische Interaktionen mit Objekten zu simulieren Liu und Negrut (2021). Die Integration von Physik-Engines in Simulationen hat sich als hilfreich für den Erwerb von Fähigkeiten erwiesen, die auf realistische Szenarien anwendbar sind Saito et al. (2023).

5.4 Generativer Agent

Die jüngsten Fortschritte auf dem Gebiet der groß angelegten generativen KI-Modelle haben das Potenzial, die hohen Kosten und den Zeitaufwand, die derzeit für interaktive Inhalte erforderlich sind, erheblich zu senken. Darüber hinaus wird die Einbettung groß angelegter KI-Modelle in Sandbox-Umgebungen es den Nutzern ermöglichen, ihre eigenen Erfahrungen zu verfassen und ihre Kreativität auf eine Weise auszudrücken, die derzeit nicht möglich ist.

Das Ziel dieses Agenten besteht nicht nur darin, interaktive 3D-Inhalte in die Szene einzufügen:

Fügen Sie beliebige Verhaltens- und Interaktionsregeln zu Objekten hinzu, so dass Benutzer ihre eigenen VR-Regeln mit minimaler Eingabeaufforderung erstellen können.
Die gesamte Geometrie des Levels wird aus Skizzen auf Papier unter Verwendung von multimodalen GPT4-v-Modellen sowie anderen Modellketten mit visuellen KI-Modellen erzeugt.
Neutexturierung des Inhalts einer Szene unter Verwendung eines Diffusionsmodells
Erstellen Sie benutzerdefinierte Shader und visuelle Effekte mit einfachen Benutzeranweisungen

Eine mögliche kurzfristige Anwendung sind Storyboarding-/Prototyping-Tools für die VR-Erstellung, mit denen ein einzelner Benutzer eine grobe (aber voll funktionsfähige) Skizze eines Erlebnisses/Spiels um Größenordnungen schneller erstellen kann, als es derzeit möglich ist. Ein solcher Prototyp könnte dann mit diesen Werkzeugen erweitert und verbessert werden.

5.4.1 AR/VR/Mixed Reality Agent

AR/VR/Mixed Reality (zusammenfassend als XR bezeichnet) erfordern derzeit qualifizierte Künstler und Animatoren, um Charaktere, Umgebungen und Objekte zur Simulation von Interaktionen in der virtuellen Welt zu erstellen. Dies ist ein kostspieliger Prozess, der Konzeptkunst, 3D-Modellierung, Texturierung, Bindung und Animation umfasst. XR Agent kann bei diesem Prozess helfen, indem er die Interaktion zwischen den Schöpfern erleichtert und Werkzeuge erstellt, die bei der Konstruktion der endgültigen virtuellen Umgebung helfen.

Unsere ersten Experimente haben gezeigt, dass GPT-Modelle im Sample-Less-Mechanismus der Unity-Engine (ohne zusätzliche Feinabstimmung) verwendet werden können, um Engine-spezifische Methoden über API-Aufrufe aufzurufen, um 3D-Modelle aus dem Internet herunterzuladen und in der Szene zu platzieren und ihnen Verhalten und Animation im Zustandsbaum zuzuweisen Huang et al. (2023a). Dieses Verhalten könnte auf das Vorhandensein von ähnlichem Code in Open-Source-Spiele-Repositories mit Unity zurückzuführen sein. Infolgedessen ist das GPT-Modell in der Lage, reichhaltige visuelle Szenen zu erstellen, indem es viele Objekte auf der Grundlage einfacher Benutzeraufforderungen in die Szene lädt.

Das Ziel dieser Klasse von Agenten ist es, eine Plattform und eine Reihe von Werkzeugen zu entwickeln, die eine effiziente Schnittstelle zwischen großen KI-Modellen (die GPT-Modellfamilie sowie diffuse Bildmodelle) und Rendering-Engines bieten. Wir erforschen hier zwei Hauptrichtungen:

Integrieren Sie große Modelle in die verschiedenen Editor-Tools der Agent-Infrastruktur, um die Entwicklung erheblich zu beschleunigen.
Steuerung der Rendering-Engine von der Benutzererfahrung aus durch die Generierung von Code, der den Anweisungen des Benutzers folgt und zur Laufzeit kompiliert wird, so dass die Benutzer die VR/Simulation, mit der sie interagieren, auf jede beliebige Weise bearbeiten und sogar neue Agentenmechanismen einführen können.

Die Einführung eines KI-Co-Piloten, der sich auf XR-Setups konzentriert, ist nützlich für XR-Ersteller, die den Co-Piloten für mühsame Aufgaben wie die Bereitstellung einfacher Assets oder das Schreiben von Code-Beispielen einsetzen können, so dass sich die Ersteller auf ihre kreative Vision konzentrieren und Ideen schnell umsetzen können.

Darüber hinaus können Agenten den Benutzern helfen, ihre Umgebung interaktiv zu verändern, indem sie neue Elemente hinzufügen, die Dynamik der Umgebung verändern oder neue Einstellungen erstellen. Diese Form der dynamischen Generierung zur Laufzeit kann auch vom Ersteller festgelegt werden, damit die Erfahrung des Benutzers frisch wirkt und sich mit der Zeit weiterentwickelt.

5.5 Intelligenz des Wissens und des logischen Denkens

Die Fähigkeit, logisch zu denken und Wissen anzuwenden, ist ein entscheidendes Merkmal der menschlichen Kognition und zeigt sich besonders bei komplexen Aufgaben wie logischen Schlussfolgerungen und dem Verständnis von Theorien des Geistes ^2^^2^https://plato.stanford.edu/entries/cognitive-science. Das Denken über Wissen stellt sicher, dass die Antworten und das Verhalten der KI mit bekannten Fakten und logischen Prinzipien übereinstimmen. Prinzipien übereinstimmen. Diese Kohärenz ist ein Schlüsselmechanismus, um das Vertrauen und die Zuverlässigkeit von KI-Systemen aufrechtzuerhalten, insbesondere bei kritischen Anwendungen wie der medizinischen Diagnose oder der juristischen Analyse. Hier stellen wir eine Reihe von Intelligenzen vor, die das Zusammenspiel von Wissen und logischem Denken kombinieren und auf bestimmte Aspekte von Intelligenz und logischem Denken ausgerichtet sind.

5.5.1 Wissensintelligenz

Wissensintelligenzen denken über ihre erworbenen Wissenssysteme auf zwei Arten nach: implizit und explizit. Implizites Wissen ist typischerweise das Wissen, das von großen Sprachmodellen wie der GPT-Familie Brown et al. (2020); OpenAI (2023) gekapselt wird, nachdem sie auf großen Mengen von Textdaten trainiert wurden. Diese Modelle können Antworten erzeugen, die den Eindruck des Verstehens erwecken, weil sie Muster und Informationen nutzen, die beim Training implizit gelernt wurden. Im Gegensatz dazu ist explizites Wissen strukturiert und kann direkt abgefragt werden, wie z. B. Informationen in Wissensdatenbanken oder Datenbanken, und hat traditionell die Argumentation der KI durch den Verweis auf überprüfbare externe Ressourcen erweitert.

Trotz der Fortschritte bei Sprachmodellen ist ihr implizites Wissen statisch und veraltet, wenn sich die Welt weiterentwickelt Lewis et al. (2020); Peng et al. (2023). Diese Einschränkung macht es notwendig, ständig aktualisierte Quellen expliziten Wissens zu integrieren, um sicherzustellen, dass KI-Systeme genaue und aktuelle Antworten geben können. Die Integration von implizitem und explizitem Wissen stattet KI-Intelligenzen mit einem differenzierteren Verständnis und der Fähigkeit aus, Wissen im Kontext wie menschliche Intelligenz anzuwenden Gao et al. (2022). Diese Integration ist entscheidend für den Aufbau wissenszentrierter KI-Intelligenzen, die nicht nur über Informationen verfügen, sondern diese auch verstehen, interpretieren und nutzen können und so die Lücke zwischen umfassendem Lernen und tiefem Wissen schließen (Marcus und Davis, 2019; Gao et al., 2020). Diese Intelligenzen zielen darauf ab, auf flexible Weise und mit dynamischen Informationen über die Welt zu argumentieren und so ihre Robustheit und Anpassungsfähigkeit zu verbessern (Marcus, 2020).

5.5.2 Logische Intelligenzen

Typischerweise sind logische Intelligenzen Komponenten eines Systems, die darauf ausgelegt sind, logisches Denken anzuwenden, um Daten zu verarbeiten oder Aufgaben zu lösen, die für logisches Denken oder logische Argumentation spezifisch sind. Im Kontext eines großen Basismodells wie GPT-4 beziehen sich logische Intelligenzen auf spezialisierte Komponenten oder Submodule, die für die Bearbeitung von Aufgaben des logischen Denkens entwickelt wurden. Diese Aufgaben beinhalten typischerweise das Verstehen und Bearbeiten abstrakter Konzepte, das Ableiten von Schlussfolgerungen aus gegebenen Prämissen oder das Lösen von Problemen, die einen strukturierten, logischen Ansatz erfordern. Grob gesagt werden Basismodelle wie GPT-4 auf großen Textdatenkorpora trainiert und lernen, eine Vielzahl von Aufgaben auszuführen, darunter auch solche, die eine Form des logischen Denkens erfordern. Ihre logischen Schlussfolgerungen sind also in die Gesamtarchitektur integriert, und sie verfügen in der Regel nicht über separate, isolierte "logische Intelligenzen". GPT-4 und ähnliche Modelle können zwar Aufgaben ausführen, die Logik beinhalten, aber ihr Ansatz unterscheidet sich grundlegend von der Arbeitsweise des Menschen oder traditioneller logikbasierter Systeme. Sie folgen keinen formalen logischen Regeln und haben kein explizites Verständnis von Logik; stattdessen generieren sie Antworten auf der Grundlage von Mustern, die sie aus Trainingsdaten gelernt haben. Infolgedessen kann ihre Leistung bei logischen Aufgaben beeindruckend sein, aber auch inkonsistent oder durch die Art der Trainingsdaten und die inhärenten Grenzen des Modelldesigns eingeschränkt sein. Ein Beispiel für die Einbettung eines separaten Logik-Submoduls in die Architektur ist (Wang et al., 2023e), das den vom LLM während des Pre-Trainings verwendeten Token-Einbettungsprozess modifiziert, indem es den Text in logische Segmente parst und die logische Hierarchie in der Token-Einbettung explizit modelliert.

5.5.3 Intelligenz für emotionale Argumentation

Emotionales Verständnis und Einfühlungsvermögen sind wichtige Fähigkeiten, die Intelligenzen bei vielen Interaktionen zwischen Mensch und Computer besitzen müssen. Um diesen Punkt zu veranschaulichen, besteht ein wichtiges Ziel bei der Schaffung von ansprechenden Gesprächsintelligenzen darin, dass die Intelligenzen mehr Emotionen und Empathie zeigen, wenn sie handeln, während sie gleichzeitig sozial unangemessene oder beleidigende Äußerungen minimieren. Um dieses Ziel für Gesprächsintelligenzen voranzutreiben, veröffentlichen wir eine Übersicht über Neurobilder mit Empathie (NICE) von Chen et al. (2021), der fast 2 Millionen Bilder zusammen mit den entsprechenden manuell generierten Kommentaren und einer Reihe von menschlichen Stimmungsannotationen enthält. Wir stellen auch ein neues, vortrainiertes Modell zur Modellierung der Stimmungserzeugung für Bildkommentare zur Verfügung (MAGIC) Chen et al. (2021) - zielt darauf ab, Kommentare zu Bildern zu generieren, die auf sprachlichen Darstellungen beruhen, die Stil und Emotionen erfassen und dabei helfen, Kommentare zu generieren, die einfühlsamer, emotionaler, engagierter und sozial angemessener sind. Unsere Experimente zeigen, dass mit diesem Ansatz eine menschenähnlichere und ansprechendere Intelligenz für Bildkommentare trainiert werden kann. Die Entwicklung empathiebewusster Intelligenzen ist eine vielversprechende Richtung für interaktive Intelligenzen, und es ist wichtig, Intelligenzen mit emotionalem Verständnis für ein breites Spektrum von Gruppen und Bevölkerungsgruppen zu schaffen, insbesondere angesichts der Tatsache, dass viele aktuelle Sprachmodelle Verzerrungen in ihrem emotionalen Verständnis und ihren empathischen Argumentationsfähigkeiten aufweisen Mao et al. (2022); Wake et al. (2023d).

5.5.4 Neuro-symbolische Intelligenzen

Neurosymbolische Intelligenzen arbeiten mit hybriden Systemen aus Neuronen und Symbolen d'Avila Garcez und Lamb (2020). Die Lösung des Problems der Repräsentation natürlicher Sprache ist eine anspruchsvolle Aufgabe, da sie die explizite Erfassung der diskreten symbolischen Strukturinformationen erfordert, die in der Eingabe enthalten sind. Die meisten allgemeinen neuronalen Sequenzmodelle erfassen solche strukturellen Informationen jedoch nicht explizit, was ihre Leistung bei diesen Aufgaben einschränkt.Die Arbeit von Chen et al. (2020) schlägt ein neuartiges Encoder-Decoder-Modell vor, das auf strukturierten neuronalen Repräsentationsintelligenzen basiert.Der Encoder des TP-N2F verwendet eine TPR-"Bindung". Der Encoder des TP-N2F verwendet eine TPR-"Bindung", um natürlichsprachliche symbolische Strukturen im Vektorraum zu kodieren, und der Decoder verwendet eine TPR-"Entbindung", um sequentielle Programme zu erzeugen, die durch relationale Tupel im symbolischen Raum dargestellt werden, wobei jedes Tupel eine Relation (oder Operation) und einige Parameter enthält.

Befehlsgesteuerte visuelle Sprachmodelle (VL) wie GPT-4 bieten eine flexible Schnittstelle, die eine breite Palette multimodaler Aufgaben in einer Null-Sample-Art unterstützt. Schnittstellen, die auf vollständigen Bildern laufen, ermöglichen es dem Benutzer jedoch nicht direkt, auf bestimmte Regionen innerhalb des Bildes zu zeigen und zuzugreifen. Diese Fähigkeit ist nicht nur für die Unterstützung referenzbasierter VL-Benchmarks wichtig, sondern auch für reale Anwendungen, die genaue bildinterne Schlussfolgerungen erfordern. In (Park et al., 2023b) haben wir ein lokales visuelles Commonsense-Modell entwickelt, das es dem Benutzer erlaubt, (mehrere) Regionen als Eingabe zu spezifizieren. Wir haben unser Modell trainiert, indem wir lokales Commonsense-Wissen aus einem Large Language Model (LLM) entnommen haben: Konkret haben wir das LLM dazu veranlasst, Commonsense-Wissen zu sammeln, das auf globalen wörtlichen Bildbeschreibungen und einer Reihe lokaler wörtlicher Regionsbeschreibungen basiert, die automatisch vom VL-Modell generiert wurden. Der Prozess ist skalierbar und vollständig automatisiert, da keine abgeglichenen oder manuell geschriebenen Bild- und Textpaare erforderlich sind. Durch individuelles Training eines Überprüfungsmodells ausgewählter hochwertiger Beispiele stellen wir fest, dass das Training auf einem lokalen Korpus von allgemeinem Wissen, das nur aus Bildern erweitert wurde, bestehende VL-Modelle erfolgreich verfeinern kann, um Schnittstellen zu unterstützen, die Zitate als Eingabe verwenden. Empirische Ergebnisse in einer Null-Proben-Einstellung und manuelle Auswertung zeigen, dass unser Verfeinerungsansatz genauere Inferenz-VL-Modelle im Vergleich zu einer Basislinie von pass-generierten referentiellen Ausdrücken erzeugt.

5.6 Große Sprachmodelle und visuelle Sprachmodellierungsintelligenzen

In vielen Arbeiten wurden große Sprachmodelle als Intelligenz für die Planung von Aufgaben eingesetzt (Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a) und das Domänenwissen im Internet und die Planungsfähigkeiten von großen Sprachmodellen ohne Stichproben genutzt, um Intelligenz wie Planung und Inferenz Aufgaben. Jüngste Forschungsarbeiten im Bereich der Robotik haben ebenfalls große Sprachmodelle für die Planung von Aufgaben eingesetzt (Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022), indem Befehle in natürlicher Sprache in eine Reihe von Teilaufgaben zerlegt wurden, entweder in Form von natürlicher Sprache oder Python-Code, die dann mit Hilfe von Low-Level-Controllern ausgeführt werden. Darüber hinaus integrieren Huang et al. (2022b), Liang et al. (2022) und Wang et al. (2023a) auch Feedback aus der Umgebung, um die Aufgabenleistung zu verbessern. Es gibt auch viele Arbeiten, die zeigen, dass verallgemeinerte, visuell ausgerichtete große Sprachmodelle, die auf großen Text-, Bild- und Videodaten trainiert wurden, als Grundlage für die Schaffung multimodaler Intelligenzen verwendet werden können, die in einer Vielzahl von Umgebungen verkörpert werden und auf die man reagieren kann Baker et al.

6 Aufgaben der KI-Anwendung Intelligent Body

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 8: Simulation und Generierung von Spielgefühlen im Minecraft-Dungeon mittels GPT-4V für verkörperte Intelligenzen zur benutzerinteraktiven Vorhersage von Spielhandlungen und Interaktionsbearbeitung.

6.1 Spielintelligenz

Das Spiel bietet einen einzigartigen Sandkasten, um das Verhalten von Intelligenzen sowohl des großen Sprachmodells als auch des visuellen Sprachmodells zu testen und die Grenzen ihrer Fähigkeit zur Zusammenarbeit und Entscheidungsfindung zu erweitern. Wir beschreiben insbesondere drei Bereiche, die die Fähigkeit von Intelligenzen hervorheben, mit menschlichen Spielern und anderen Intelligenzen zu interagieren und sinnvolle Aktionen in ihrer Umgebung durchzuführen.

6.1.1 NPC-Verhalten

In modernen Spielsystemen wird das Verhalten von Nicht-Spieler-Charakteren (NPCs) weitgehend durch vordefinierte, von den Entwicklern geschriebene Skripte bestimmt. Diese Skripte enthalten eine Reihe von Reaktionen und Interaktionen auf der Grundlage verschiedener Auslöser oder Spieleraktionen in der Spielumgebung. Diese Skripte führen jedoch häufig zu vorhersehbarem oder sich wiederholendem NSC-Verhalten, das sich nicht auf der Grundlage von Spieleraktionen oder der dynamischen Spielumgebung weiterentwickelt. Diese Starrheit behindert die immersive Erfahrung, die man in einer dynamischen Spielumgebung erwartet. Daher wächst das Interesse an der Verwendung umfangreicher Sprachmodelle, um das Verhalten von NPCs autonom und anpassungsfähig zu machen, damit die Interaktionen nuancierter und fesselnder werden. Durch künstliche Intelligenz gesteuerte NPCs können aus dem Verhalten der Spieler lernen, sich an verschiedene Strategien anpassen und anspruchsvollere und unvorhersehbarere Spielerlebnisse bieten. Große Sprachmodelle (Large Language Models, LLMs) können einen wichtigen Beitrag zur Entwicklung des NPC-Verhaltens in Spielen leisten. Durch die Verarbeitung großer Textmengen können LLMs Muster lernen und vielfältigere und menschenähnliche Antworten erzeugen. Sie können verwendet werden, um dynamische Dialogsysteme zu erstellen, die die Interaktion mit NPCs ansprechender und weniger vorhersehbar machen. Darüber hinaus können Big Language Models mit Spieler-Feedback und In-Game-Daten trainiert werden, um das Verhalten der NSCs kontinuierlich zu verbessern und besser an die Erwartungen der Spieler und die Dynamik des Spiels anzupassen.

6.1.2 Mensch-Maschine-NPC-Interaktion

Die Interaktion zwischen dem menschlichen Spieler und dem NSC ist ein Schlüsselaspekt des Spielerlebnisses. Traditionelle Interaktionsmodelle sind größtenteils eindimensional, wobei die NSCs auf die Eingaben des Spielers in einer vordefinierten Weise reagieren. Diese Einschränkung verhindert das Potenzial für natürlichere und reichhaltigere Interaktionen (ähnlich der Interaktion von Mensch zu Mensch) in der virtuellen Welt. Das Aufkommen der Technologien Big Language Modelling und Visual Language Modelling verspricht, dieses Paradigma zu ändern. Durch den Einsatz dieser Technologien können Spielsysteme das menschliche Verhalten analysieren und erlernen, um menschenähnlichere Interaktionen zu ermöglichen. Dies steigert nicht nur den Realismus und das Engagement von Spielen, sondern bietet auch eine Plattform für die Erforschung und das Verständnis von Mensch-Computer-Interaktionen in kontrollierten, aber komplexen Umgebungen.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 9: Das GPT-4V ist in der Lage, die nächsten Züge auf hohem Niveau vorherzusagen, wenn die "Bewegungshistorie" und das "Spielziel" im Hinweis enthalten sind. Darüber hinaus erkennt GPT-4V genau, dass der Spieler einen Holzklotz in der Hand hält und kann diese wahrgenommene Information in seine zukünftigen Handlungspläne einbeziehen. Obwohl GPT-4V in der Lage zu sein scheint, einige Low-Level-Aktionen vorherzusagen (z.B. das Drücken der "E"-Taste zum Öffnen eines Rucksacks), sind die Ergebnisse des Modells von Natur aus ungeeignet für primitive Low-Level-Aktionsvorhersagen (einschließlich Mausbewegungen) und erfordern möglicherweise zusätzliche Module für die Low-Level-Aktionssteuerung.

6.1.3 Analyse der intelligenten körperbasierten Spiele

Spiele sind ein fester Bestandteil des täglichen Lebens und ziehen schätzungsweise die Hälfte der Weltbevölkerung an https://www.dfcint.com/global-video-game-audience-reaches-3-7-billion/. Darüber hinaus hat es positive Auswirkungen auf die psychische Gesundheit https://news.microsoft.com/source/features/work-life/mind-games-how-gaming-can-play-a-positive-role-in-mental- Gesundheit/. Heutige Spielsysteme weisen jedoch Defizite in der Interaktion mit menschlichen Spielern auf, da deren Verhalten größtenteils von Spieleentwicklern vorprogrammiert ist. Diese vorprogrammierten Verhaltensweisen lassen sich oft nicht an die Bedürfnisse des Spielers anpassen. Daher werden in Spielen neue KI-Systeme benötigt, die das Verhalten der Spieler analysieren und bei Bedarf angemessene Unterstützung bieten können. Intelligente Interaktionssysteme haben das Potenzial, die Art und Weise, wie Spieler mit Spielsystemen interagieren, zu revolutionieren: Die Interaktion von NSCs mit Spielern ist nicht länger durch eine begrenzte Anzahl von Regeln eingeschränkt, die von Spieleentwicklern entworfen wurden. Sie haben das Potenzial, sich nahtlos an die Erfahrung des Spielers anzupassen und zeitnahes Feedback zu geben, um das Spielerlebnis zu bereichern und die Synergie der Mensch-Computer-Interaktion zu verbessern.

Big Language Models sind leistungsstarke Werkzeuge für die Analyse von Textdaten im Spiel, einschließlich Chatprotokollen, Spielerfeedback und narrativen Inhalten. Sie können dabei helfen, Muster im Verhalten, in den Vorlieben und in den Interaktionen der Spieler zu erkennen, was für Spieleentwickler von unschätzbarem Wert sein kann, wenn es darum geht, Spielmechaniken und Erzählungen zu verbessern. Darüber hinaus können visuelle Sprachmodelle große Mengen von Bild- und Videodaten aus Spielesitzungen analysieren, um die Absichten und Handlungen der Benutzer in der Spielwelt zu untersuchen. Darüber hinaus können große Sprachmodelle und visuelle Sprachmodelle die Entwicklung intelligenter Spielintelligenzen erleichtern, die mit dem Spieler und anderen Intelligenzen auf anspruchsvolle und menschenähnliche Weise kommunizieren und so das Spielerlebnis insgesamt verbessern können. Zusätzlich zu großen Sprachmodellen und visuellen Sprachmodellen bieten Benutzereingabedaten einen vielversprechenden Weg für die Entwicklung von Spielintelligenzen, die Wahrnehmung, Spielverhalten und Spielverständnis modellieren, indem sie menschliche Spieler imitieren. Durch die Kombination von Spielerinteraktion und -feedback, Pixeleingabe und Planung und Verständnis natürlicher Sprache können intelligente Körpermodelle dazu beitragen, die Spieldynamik kontinuierlich zu verbessern und so die Entwicklung von Spielumgebungen in einer stärker auf den Spieler ausgerichteten Weise voranzutreiben.

6.1.4 Synthese von Spielszenen

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 10: Maskierte Videovorhersage bei ungesehenem Minecraft-Video. Von links nach rechts: Originalbild, maskiertes Bild, rekonstruiertes Bild und rekonstruiertes Bild mit Patch.

Scene Compositing ist ein wichtiger Bestandteil der Erstellung und Verbesserung von immersiven Spielumgebungen. Es beinhaltet die automatische oder halbautomatische Erzeugung von dreidimensionalen (3D) Szenen und Umgebungen im Spiel. Dieser Prozess umfasst die Generierung von Terrain, die Platzierung von Objekten, die Erzeugung realistischer Beleuchtung und manchmal sogar dynamische Wettersysteme.

Moderne Spiele bieten oft riesige Open-World-Umgebungen. Die manuelle Gestaltung dieser Landschaften kann zeitaufwändig und ressourcenintensiv sein. Die automatische Generierung von Terrain (oft unter Verwendung prozeduraler oder KI-gesteuerter Techniken) kann komplexe, realistische Landschaften ohne viel menschliches Zutun erzeugen. Große Sprachmodelle und visuelle Sprachmodelle können das Wissen des Internets nutzen, um Regeln für die Gestaltung visuell beeindruckender und einzigartiger, sich nicht wiederholender Landschaften zu entwickeln. Darüber hinaus können Big Linguistic Models und Visual Linguistic Models verwendet werden, um die semantische Konsistenz und Variabilität der generierten Assets zu gewährleisten. Die realistische und ästhetisch ansprechende Platzierung von Objekten wie Gebäuden, Vegetation und anderen Elementen in der Szene ist entscheidend für die Immersion.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 11: Low-Level-Vorhersage der nächsten Aktion unter Verwendung eines vortrainierten Modells kleiner Intelligenzen in einem Minecraft-Spielszenario.

Visual Language Models und Big Language Models können bei der Platzierung von Objekten helfen, indem sie vordefinierten oder erlernten Regeln und ästhetischen Gesichtspunkten folgen und so den Prozess der Levelgestaltung beschleunigen. Visuelle Sprachmodelle und Big Language Models können weiter trainiert werden, um die Prinzipien von Design und Ästhetik zu verstehen und so die prozedurale Generierung von Inhalten zu unterstützen. Sie können dabei helfen, Regeln oder Richtlinien zu entwickeln, denen prozedurale Algorithmen folgen können, um Objekte und Szenen zu erzeugen, die visuell ansprechend und kontextgerecht sind.

Realistische Beleuchtung und atmosphärische Effekte sind die Grundlage für die Schaffung glaubwürdiger und fesselnder Spielumgebungen. Fortschrittliche Algorithmen können natürliche Lichtverhältnisse und dynamische Wettereffekte simulieren, um den Realismus und die Atmosphäre einer Szene zu verbessern. Big Language Models können bei der Entwicklung von Systemen zur Erzielung realistischerer Beleuchtungs- und Atmosphäreneffekte auf verschiedene innovative Weise helfen. Visuelle Sprachmodelle können große Datensätze von realen Beleuchtungs- und Atmosphärenbedingungen analysieren, um die Entwicklung realistischerer Algorithmen zur Simulation dieser Effekte in Spielen zu unterstützen. Indem sie die Muster und die Komplexität der natürlichen Beleuchtung und des Wetters verstehen, können diese Modelle zur Entwicklung von Algorithmen beitragen, die der Realität sehr nahe kommen. Big-Language-Modelle und Visual-Language-Modelle können auch zur Entwicklung von Systemen verwendet werden, die Beleuchtungs- und atmosphärische Effekte in Echtzeit auf der Grundlage von Spieleraktionen, Spielstatus oder externen Eingaben anpassen. Sie können Befehle des Spielers in natürlicher Sprache verarbeiten, um die Spielumgebung so zu verändern, dass ein interaktives und immersives Erlebnis entsteht.

6.1.5 Experimente und Ergebnisse

Null-Stichproben-/Wenig-Stichproben-Lernen mit einem großen Sprachmodell oder einem visuellen Sprachmodell.

Wie wir in den Abbildungen 8 und 9 zeigen, verwenden wir GPT-4V für die Beschreibung auf hoher Ebene und die Vorhersage von Handlungen. Abbildung 8 zeigt einige qualitative Beispiele für die Verwendung von GPT-4V zur Erstellung von Handlungsbeschreibungen und Bearbeitungen. Intelligenter, körperbetonter Text eröffnet einen neuen Weg, 3D-Szenen zu generieren, indem Spielhandlungen a priori verwendet werden, um die Natürlichkeit der Szene zu verbessern. Als Ergebnis generiert GPT-4V relevante Beschreibungen auf hoher Ebene, die sich auf das Spielvideo beziehen.

Pre-Training von Modellen für kleine Intelligenzen.

Um unsere visuelle Spracharchitektur für Intelligibles zu demonstrieren, untersuchen wir zunächst ihre Anwendung für das Pre-Training auf Minecraft-Daten, einer weit verbreiteten Domäne für Spiel-Intelligibles. Wie in Abb. 7 gezeigt, können die Aktionen und Bilder eines intelligenten Körpers mit Hilfe eines Standard-Encoders und -Decoders in Action Text Token und Image Patch Token umgewandelt werden, die dann mit Hilfe eines Decoders für die visuelle Sprache des intelligenten Körpers in Action Prediction Sentences umgewandelt werden können. Die Gesamtarchitektur ist in Abbildung 7 dargestellt. Wir evaluieren unseren Ansatz anhand mehrerer Minecraft-Demos. Die Minecraft-Videodaten bestehen aus 5-Minuten-Clips, und das Video, das wir für das Vortraining verwenden, enthält 78K Videos, und wir verwenden 5K Videos (die 6% der Vortrainingsdaten ausmachen) für die erste Runde des Vortrainings. Wir trainieren ein Modell mit 250 Millionen Parametern auf 16 NVIDIA v100 GPUs einen Tag lang und visualisieren unsere Modellausgabe in den Abbildungen 10 und 11. Abbildung 10 zeigt, dass unsere relativ kleine Smartbody-Architektur vernünftige Ergebnisse für Minecraft-Szenen erzeugen kann, die während des Trainings nicht gesehen wurden. Abbildung 11 zeigt einen Vergleich der Modellvorhersagen mit realen menschlichen Spieleraktionen, was das Potenzial unseres kleinen intelligenten Körpermodells für das Low-Level-Verständnis verdeutlicht.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 12: MindAgent for Contextual Learning Game Infrastructure. Planungsfähigkeiten und Werkzeugnutzung: Spielumgebungen erfordern eine Reihe von Planungsfähigkeiten und Werkzeugnutzung, um Aufgaben zu erfüllen. Es generiert relevante Spielinformationen und konvertiert Spieldaten in ein strukturiertes Textformat, das vom Big Language Model verarbeitet werden kann. Big Language Models: Die Hauptarbeitsmaschine unserer Infrastruktur trifft Entscheidungen und fungiert somit als Dispatcher für multi-intelligente Körpersysteme. Speicherhistorie: Hilfsmittel zur Speicherung relevanter Informationen. Aktionsmodul: extrahiert Aktionen aus Texteingaben und wandelt sie in eine domänenspezifische Sprache um und validiert die DSL, damit bei der Ausführung keine Fehler auftreten.

Multi-Intelligente Infrastruktur für den Körper.

Wie im Paradigma des intelligenten Körpers in Abb. 5 gezeigt, haben wir eine neue Infrastruktur für ein neues Spielszenario namens "CuisineWorld" entwickelt (Gong et al., 2023a). Wir beschreiben unseren Ansatz im Detail in Abbildung 12. Unsere Infrastruktur ermöglicht die Zusammenarbeit mehrerer Intelligenzen, indem sie GPT-4 als zentralen Planer einsetzt und über mehrere Spieldomänen hinweg arbeitet. Wir untersuchen die Multi-Intelligenz-Planungsfähigkeiten des Systems und setzen die Infrastruktur in einem realen Videospiel ein, um die Effektivität der Multi-Intelligenz und der Mensch-Computer-Zusammenarbeit zu demonstrieren. Darüber hinaus demonstrieren wir "Cuisineworld", einen textbasierten Benchmark für multi-intelligente Zusammenarbeit, der eine neue automatische Metrik Collaboration Score (CoS) zur Quantifizierung der Zusammenarbeitseffizienz bereitstellt.

Weitere Beispiele und Details zu Spielbeschreibungen, Handlungsvorhersagen auf hoher Ebene und GPT-4V-Hinweisen finden Sie im Anhang. Wir zeigen Beispiele für Bleeding Edge, siehe Abbildung 32 und Anhang B; Microsoft Flight Simulator, siehe Abbildung 33 und Anhang C; ASSASSIN's CREED ODYSSEY, siehe Abbildung 34 und Anhang D; GEARS of WAR 4, siehe Abbildung 35 und Anhang E; und Starfield. Siehe Abbildung 35 und Anhang E; und das Starfield-Beispiel, siehe Abbildung 36 und Anhang F. Wir stellen auch detaillierte Screenshots des GPT4V-Prompting-Prozesses zur Verfügung, der zur Erstellung des Minecraft-Beispiels verwendet wurde, siehe Abbildung 31 und Anhang A.

6.2 Robotik

Roboter sind typische Intelligenzen, die effektiv mit ihrer Umgebung interagieren müssen. In diesem Abschnitt stellen wir die Schlüsselelemente eines effizienten Roboterbetriebs vor, geben einen Überblick über die Forschungsthemen, bei denen die neuesten Techniken der Large Language Modelling/Visual Language Modelling (LLM/VLM) angewendet wurden, und stellen die Ergebnisse unserer jüngsten Forschung vor.

Visuelle Bewegungskontrolle.

Visuelle Bewegungssteuerung bezieht sich auf die Integration von visueller Wahrnehmung und motorischen Aktionen, um Aufgaben in einem Robotersystem effizient auszuführen. Diese Integration ist von entscheidender Bedeutung, da sie es dem Roboter ermöglicht, visuelle Daten aus seiner Umgebung zu interpretieren und seine motorischen Aktionen entsprechend anzupassen, um präzise mit der Umgebung zu interagieren. An einem Fließband zum Beispiel kann ein Roboter, der mit einer Bildverarbeitungssteuerung ausgestattet ist, die Position und Ausrichtung von Objekten erkennen und seinen Roboterarm genau so einstellen, dass er mit diesen Objekten interagiert. Diese Fähigkeit ist entscheidend für die Genauigkeit und Effektivität von Roboteroperationen in Anwendungen, die von der industriellen Automatisierung bis hin zur Unterstützung älterer Menschen bei alltäglichen Aufgaben reichen. Darüber hinaus hilft die visuelle Bewegungssteuerung Robotern bei der Anpassung an dynamische Umgebungen, in denen sich der Zustand der Umgebung schnell ändern kann, was eine Echtzeitanpassung der motorischen Aktionen auf der Grundlage von visuellem Feedback erfordert.

Darüber hinaus sind visuelle Informationen im Zusammenhang mit einem sicheren Betrieb von entscheidender Bedeutung für die Erkennung von Ausführungsfehlern und die Ermittlung von Vor- und Nachbedingungen für jede Roboteraktion. In unkontrollierten Umgebungen, wie z. B. in unbekannten häuslichen Umgebungen, ist die Wahrscheinlichkeit größer, dass Roboter aufgrund unvorhersehbarer Faktoren, wie z. B. Formveränderungen von Möbeln, Veränderungen der Beleuchtung und Ausrutschen, unbeabsichtigte Ergebnisse erzielen. Die Ausführung vorgeplanter Bewegungsszenarien in einer reinen Vorwärtssteuerung kann in solchen Umgebungen erhebliche Risiken bergen. Daher ist die Verwendung visueller Rückmeldungen zur kontinuierlichen Validierung der Ergebnisse der einzelnen Schritte der Schlüssel zur Gewährleistung eines robusten und zuverlässigen Betriebs des Robotersystems.

Sprachbedingter Betrieb.

Der sprachlich bedingte Betrieb bezieht sich auf die Fähigkeit eines Robotersystems, Aufgaben auf der Grundlage von sprachlichen Anweisungen zu interpretieren und auszuführen. Dieser Aspekt ist besonders wichtig für die Schaffung intuitiver und benutzerfreundlicher Mensch-Roboter-Schnittstellen. Durch natürlichsprachliche Befehle kann der Benutzer dem Roboter Ziele und Aufgaben in einer Weise vorgeben, die der Kommunikation von Mensch zu Mensch ähnelt, wodurch die Schwelle für die Bedienung des Robotersystems gesenkt wird. In einem realen Szenario kann ein Benutzer beispielsweise einen Serviceroboter anweisen, "den roten Apfel vom Tisch aufzuheben", und der Roboter wird diesen Befehl analysieren, das Objekt erkennen, auf das er sich bezieht, und die Aufgabe ausführen, das Objekt aufzuheben Wake et al. (2023c). Die zentrale Herausforderung besteht darin, robuste Algorithmen für die Verarbeitung und das Verstehen natürlicher Sprache zu entwickeln, die ein breites Spektrum von Anweisungen - von direkten Befehlen bis hin zu abstrakteren Anweisungen - genau interpretieren können und es dem Roboter ermöglichen, diese Anweisungen in umsetzbare Aufgaben zu übersetzen. Um die Vielseitigkeit und den Nutzen von Robotern in realen Anwendungen zu erhöhen, muss außerdem sichergestellt werden, dass die Roboter diese Anweisungen für verschiedene Aufgaben und Umgebungen verallgemeinern können. Die Verwendung von sprachlichen Eingaben zur Steuerung der Aufgabenplanung des Roboters wurde in einem Robotik-Rahmenwerk namens Task and Motion Planning Garrett et al. (2021) untersucht.

Optimierung der Fertigkeiten.

Jüngste Forschungsarbeiten haben die Wirksamkeit von Large Language Modelling (LLM) bei der Aufgabenplanung von Robotern unterstrichen. Die optimale Ausführung von Aufgaben, insbesondere solcher, die physische Interaktionen wie das Greifen beinhalten, erfordert jedoch ein tieferes Verständnis der Umgebung als nur die Interpretation menschlicher Anweisungen. Zum Beispiel erfordert das Greifen mit Robotern präzise Kontaktpunkte Wake et al. (2023e) und Armhaltungen Sasabuchi et al. (2021) für eine effektive Ausführung der nachfolgenden Aktionen. Während diese Elemente - präzise Kontaktpunkte und Armhaltungen - für den Menschen intuitiv sind, ist es eine Herausforderung, sie durch Sprache auszudrücken. Trotz der Fortschritte bei der visuellen Sprachmodellierung (VLM) im Internet ist es nach wie vor eine große Herausforderung, diese subtilen indirekten Hinweise aus einer Szene zu erfassen und sie effektiv in Roboterfähigkeiten zu übersetzen. Als Reaktion darauf konzentriert sich die Robotikgemeinschaft zunehmend auf die Sammlung erweiterter Datensätze (z. B. Wang et al. (2023d); Padalkar et al. (2023)) oder die Entwicklung von Methoden zum Erwerb von Fähigkeiten direkt aus menschlichen Demonstrationen Wake et al. (2021a). Frameworks wie Learning from Demonstration und Learning by Imitation sind bei diesen Entwicklungen führend und spielen eine entscheidende Rolle bei der Optimierung von Physikkenntnissen.

6.2.1 Großes Sprachmodell/Visuelles Sprachmodell (LLM/VLM) Intelligentsia für Robotik.

Jüngste Forschungsarbeiten haben das Potenzial von Large Language Models/Visual Language Models (LLM/VLM) für Roboterintelligenzen aufgezeigt, die mit Menschen in der Umwelt interagieren. Zu den Forschungsthemen, die darauf abzielen, die neuesten Techniken der Large Language Modelling/Visual Language Modelling (LLM/VLM) zu nutzen, gehören:

multimodales SystemJüngste Forschungsarbeiten konzentrieren sich aktiv auf die Entwicklung von End-to-End-Systemen, die die neuesten Technologien zur Modellierung großer Sprachen (Large Language Modelling, LLM) und visueller Sprachen (Visual Language Modelling, VLM) als Kodierer von Eingabeinformationen verwenden. Insbesondere die Modifizierung dieser zugrunde liegenden Modelle zur Verarbeitung multimodaler Informationen ist zu einem wichtigen Trend geworden.Jiang et al. (2022); Brohan et al. (2023, 2022); Li et al. (2023d); Ahn et al. (2022b); Shah et al. 2023e). Diese Anpassung zielt darauf ab, die Aktionen des Roboters auf der Grundlage von verbalen Befehlen und visuellen Hinweisen für eine effektive Verkörperung zu steuern.

Einsatzplanung und KompetenztrainingIm Gegensatz zu End-to-End-Systemen berechnen aufgaben- und bewegungsplanungsbasierte Systeme (TAMP) zunächst hochrangige Aufgabenpläne, die dann durch eine niedrigrangige Robotersteuerung (Fertigkeiten genannt) umgesetzt werden.

Die fortschrittlichen Sprachverarbeitungsfähigkeiten von Large Language Models (LLMs) können nachweislich Anweisungen interpretieren und in Roboteraktionsschritte zerlegen, was die Aufgabenplanungstechniken erheblich verbessert Ni et al. (2023); Li et al. (2023b); Parakh et al. (2023); Wake et al. (2023c). Für das Training von Fertigkeiten haben mehrere Studien den Einsatz von Large Language Modelling (LLM)/Visual Language Modelling (VLM) zur Gestaltung von Belohnungsfunktionen Yu et al. (2023a); Katara et al. (2023); Ma et al. (2023), zur Generierung von Daten für das Strategielernen Kumar et al. (2023); Du et al. 2023), oder als Teil einer Belohnungsfunktion Sontakke et al. (2023). In Kombination mit Trainingsverfahren wie dem Verstärkungslernen und dem Nachahmungslernen werden diese Bemühungen zur Entwicklung effizienter Robotersteuerungen beitragen.

Optimierung vor OrtDie Durchführung langer Aufgabenschritte in der Robotik kann aufgrund unerwarteter und unvorhersehbarer Umweltbedingungen schwierig sein. Daher besteht eine große Herausforderung im Bereich der Robotik in der dynamischen Anpassung und Verbesserung der Roboterfähigkeiten durch die Kombination von Aufgabenplanung mit Echtzeit-Umgebungsdaten. So wurde beispielsweise in (Ahn et al., 2022b) eine Methode vorgeschlagen, die die Durchführbarkeit (d. h. die Verfügbarkeit) einer Aktion anhand visueller Informationen berechnet und mit einer geplanten Aufgabe vergleicht. Darüber hinaus gibt es Ansätze, die sich darauf konzentrieren, ein Large Language Model (LLM) zu befähigen, Vor- und Nachbedingungen (z.B. den Zustand von Objekten und deren Beziehungen untereinander) eines Aufgabenschrittes auszugeben, um dessen Ausführung zu optimieren Zhou et al. (2023c) und Fehler in der Vorbedingung zu erkennen, um notwendige Änderungen am Aufgabenplan vorzunehmen Raman et al. (2023). Diese Strategien zielen darauf ab, eine umweltorientierte Roboterausführung zu erreichen, indem Umweltinformationen integriert werden und die Roboteraktionen auf der Ebene des Aufgabenplans oder der Steuerung angepasst werden.

Dialog mit der IntelligenzijaBei der Entwicklung von Gesprächsrobotern können große Sprachmodelle (LLMs) natürliche, kontextbezogene Interaktionen mit Menschen erleichtern Ye et al. (2023a); Wake et al. (2023f). Diese Modelle verarbeiten und generieren Antworten, die den menschlichen Dialog imitieren und es Robotern ermöglichen, sich an sinnvollen Gesprächen zu beteiligen. Darüber hinaus spielen Large Language Models (LLMs) eine wichtige Rolle bei der Bewertung von Konzepten Hensel et al. (2023); Teshima et al. (2022) und affektiven Attributen Zhao et al. (2023); Yang et al. (2023b); Wake et al. (2023d). Diese Attribute helfen dabei, menschliche Absichten zu verstehen und sinnvolle Gesten zu erzeugen, und tragen so zur Natürlichkeit und Effektivität der Mensch-Computer-Kommunikation bei.

Navigation in intelligenten Körpern: Die Roboternavigation blickt auf eine lange Forschungsgeschichte zurück, die sich auf Kernaspekte wie die kartenbasierte Pfadplanung und die gleichzeitige Lokalisierung und Kartenerstellung (SLAM) zur Erstellung von Karten der Umgebung konzentriert. Diese Funktionen sind in weit verbreiteter Robotik-Middleware wie dem Robot Operating System (ROS) Guimarães et al. (2016) zum Standard geworden.

Klassische Navigationstechniken sind zwar in vielen Roboteranwendungen immer noch weit verbreitet, stützen sich aber in der Regel auf statische oder vorab erstellte Karten. In jüngster Zeit hat das Interesse an fortschrittlichen Techniken zugenommen, die es Robotern ermöglichen, in schwierigeren Umgebungen zu navigieren und dabei von Durchbrüchen in Bereichen wie dem Computerbild und der Verarbeitung natürlicher Sprache zu profitieren. Eine repräsentative Aufgabe ist die Objektnavigation (Chaplot et al. (2020a); Batra et al. (2020); Gervet et al. (2023); Ramakrishnan et al. (2022); Zhang et al. (2021)), bei der Roboter Objektnamen anstelle von Kartenkoordinaten zur Navigation verwenden, was eine visuelle Lokalisierung von Objektnamen in der Umgebung erfordert. Darüber hinaus hat man sich in jüngster Zeit auf Techniken zur Navigation von Robotern in völlig unbekannten und neuartigen Umgebungen auf der Grundlage eines Basismodells konzentriert, die so genannte Zero-Sample-Objektnavigation (Gadre et al. (2023); Dorbala et al. (2023); Cai et al. (2023)). Darüber hinaus ist die Visual Linguistic Navigation (VLN) Anderson et al. (2018a) eine repräsentative Aufgabe, bei der es darum geht, einen intelligenten Körper durch natürlichsprachliche Befehle in einer zuvor nicht gesehenen realen Umgebung zu navigieren Shah et al. (2023a); Zhou et al. (2023a); Dorbala et al. (2022); Liang et al. (2023); Huang et al. (2023b). Die visuelle linguistische Navigation (VLN) interpretiert eher Sätze als Objektnamen, z. B. "Gehen Sie zur Toilette auf der linken Seite", und erfordert daher eine höhere Funktionalität zur Analyse des Eingabetexts Wang et al. (2019).

Die Entwicklung des zugrundeliegenden Modells hat zur Entwicklung dieser adaptiven, fliegenden Navigationstechnik beigetragen, indem es das Verständnis menschlicher verbaler Befehle und der visuellen Interpretation von Umweltinformationen verbessert hat. Eine ausführlichere Erläuterung der repräsentativen Forschung zur visuellen linguistischen Navigation (VLN) finden Sie unter 6.2.2.

6.2.2 Experimente und Ergebnisse.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 13: Überblick über ein robotergestütztes Lehrsystem, das einen ChatGPT-gesteuerten Aufgabenplaner integriert. Der Prozess besteht aus zwei Schritten: der Aufgabenplanung, bei der der Benutzer mit Hilfe des Aufgabenplaners eine Abfolge von Aktionen erstellt und die Ergebnisse bei Bedarf mit Feedback anpasst, und der Demonstration, bei der der Benutzer die Abfolge von Aktionen visuell vorführt, um die für den Roboterbetrieb erforderlichen Informationen zu liefern. Das Bildverarbeitungssystem sammelt die visuellen Parameter, die für die Roboterausführung verwendet werden.

Es gibt immer mehr Belege dafür, dass neuere visuelle Sprachmodelle (Visual Language Models, VLMs) und große Sprachmodelle (Large Language Models, LLMs) über gute Fähigkeiten zur symbolischen Aufgabenplanung verfügen (z. B. was zu tun ist). Jede Aufgabe erfordert jedoch Kontrollstrategien auf niedriger Ebene (z. B. wie man sie ausführt), um eine erfolgreiche Interaktion zwischen den Umgebungen zu erreichen. Während Verstärkungs- und Nachahmungslernen vielversprechende Ansätze für das datengesteuerte Erlernen von Strategien sind, besteht ein weiterer vielversprechender Ansatz darin, Strategien direkt von Menschen durch Live-Demonstrationen zu lernen, ein Ansatz, der als "Lernen aus Beobachtung" bekannt ist (Wake et al. (2021a); Ikeuchi et al. In diesem Abschnitt stellen wir eine Studie vor, in der wir ChatGPT für die Aufgabenplanung verwendet und den Plan durch Parametrisierung mit Verfügbarkeitsinformationen angereichert haben, um eine effektive und präzise Ausführung zu ermöglichen (Abbildung 13).

Der Prozess besteht aus zwei Modulen: Aufgabenplanung und Parametrisierung. Bei der Aufgabenplanung erhält das System sprachliche Anweisungen und eine Beschreibung der Arbeitsumgebung. Diese Anweisungen werden zusammen mit vordefinierten Roboteraktionen und Ausgabespezifikationen zu einer umfassenden Eingabeaufforderung zusammengestellt, die ChatGPT zur Verfügung gestellt wird, das dann eine Reihe von zerlegten Aufgaben und ihre textlichen Beschreibungen generiert (Abb. 13; linke Seite). Es ist erwähnenswert, dass wir einen stichprobenlosen Ansatz verwenden, was bedeutet, dass ChatGPT nicht für diese Aufgabe trainiert wurde, was im Hinblick auf die Anwendbarkeit von Vorteil ist, da es die Notwendigkeit einer Hardware-bezogenen Datensammlung und eines Modelltrainings beseitigt. Darüber hinaus ermöglichen die textuellen Beschreibungen in der Ausgabe dem Benutzer, die Ergebnisse bei Bedarf zu überprüfen und anzupassen, was für einen sicheren und zuverlässigen Betrieb von entscheidender Bedeutung ist. Abbildung 14 zeigt die qualitativen Ergebnisse der Simulation von Intelligenzen, die auf VirtualHome Puig et al. (2018) durchgeführt wurden. Die Ergebnisse zeigen einen vernünftigen Aufgabenplan und Flexibilität bei der Anpassung der Ausgabe, was die breite Anwendbarkeit unseres Ansatzes demonstriert.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 14: Beispiel für die Anpassung der Ausgabesequenz durch automatisch generiertes Feedback. Für unsere Experimente haben wir den Open-Source-Simulator VirtualHome verwendet. Mit der Anweisung "Nimm den Kuchen auf dem Tisch und erwärme ihn auf dem Herd." plant der Aufgabenplaner eine Sequenz von Funktionen, die in VirtualHome bereitgestellt werden. Wird während der Ausführung ein Fehler festgestellt, korrigiert der Aufgabenplaner seine Ausgabe mit einer automatisch generierten Fehlermeldung.

Während der Aufgabenplaner die Konsistenz zwischen den Aufgabensequenzen sicherstellt, sind für eine erfolgreiche Ausführung in der Realität detaillierte Parameter erforderlich. Zum Beispiel ist die Art des Greifens entscheidend, um den Behälter zu tragen, ohne den Inhalt zu verschütten, ein Parameter, der in Simulatoren normalerweise ignoriert wird (siehe das Beispiel des Greifens eines Kuchens in Abb. 14). Daher muss der Benutzer in unserem Robotersystem jede Aktion visuell demonstrieren (Abb. 13; rechte Seite). Diese Aufgaben haben vordefinierte Parameter, die für die Ausführung erforderlich sind und die unser Bildverarbeitungssystem aus dem Video von Wake et al. (2021b) extrahiert. Es sei darauf hingewiesen, dass unser Robotersystem nicht darauf ausgelegt ist, menschliche Handlungen genau nachzubilden (d. h. Teleoperation), sondern vielmehr darauf, mit einer Vielzahl von realen Bedingungen umzugehen, wie z. B. Änderungen der Objektposition. Daher enthalten die aus der menschlichen Demonstration extrahierten Parameter nicht nur die genauen Bewegungspfade, sondern auch Verfügbarkeitsinformationen, die auf eine effektive Bewegung in der Umgebung hinweisen (z. B. Wegpunkte für die Kollisionsvermeidung Wake et al. (2023a), die Art des Greifens Wake et al. (2023e) und die Haltung der oberen Gliedmaßen Sasabuchi et al. (2021); Wake et al. 2021a)). Die Haltung der oberen Gliedmaßen ist bei Robotern mit hohen Freiheitsgraden von entscheidender Bedeutung und soll vorhersehbare Haltungen für Menschen ermöglichen, die mit dem Roboter zusammenarbeiten. Verfügbare Aufgabensequenzen werden in eine Reihe wiederverwendbarer Roboterfähigkeiten umgewandelt, die durch verstärkendes Lernen erworben und vom Roboter ausgeführt werden können Takamatsu et al. (2022).

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 15: Überblick über den multimodalen Aufgabenplaner mit GPT-4V und GPT-4. Das System verarbeitet Videopräsentationen und Textanweisungen, um Aufgabenpläne für die Roboterausführung zu erstellen.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 16: Beispiel für die Ausgabe des Videoanalysators. Fünf Bilder werden in festen Abständen extrahiert und in den GPT-4V eingespeist. Wir beschreiben den gesamten Prozess in Abschnitt 6.2.2.

Durch die Integration mit visuellen Sprachmodellen (Visual Language Models, VLMs) kann die durch große Sprachmodelle (Large Language Models, LLMs) gesteuerte Aufgabenplanung erweitert werden, um allgemeinere Robotersysteme zu ermöglichen. Hier zeigen wir ein Beispiel, in dem wir GPT-4V(ision) verwenden, um den obigen Aufgabenplaner in einem multimodalen Eingabekontext zu erweitern (Abb. 15), in dem ein Mensch Handlungen ausführt, die von einem Roboter nachgeahmt werden sollen. In diesem Beitrag wird nur ein Teil des Hinweises gezeigt. Die vollständigen Eingabeaufforderungen sind unter microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts zu finden.

Der Prozess empfängt ein Demonstrationsvideo und Text und gibt dann eine Reihe von Roboteraktionen aus. Der visuelle Analysator zielt darauf ab, die vom Menschen im Video ausgeführten Aktionen zu verstehen. Wir haben das GPT-4V verwendet und eine Eingabeaufforderung bereitgestellt, um eine Art von Textbefehlen zu erzeugen, die der Kommunikation von Mensch zu Mensch ähnelt. Abbildung 16 veranschaulicht, wie die Texteingabe es dem Benutzer ermöglicht, dem GPT-4V Rückmeldungen für Korrekturen der Erkennungsergebnisse zu geben. Diese Funktion, mit der die Genauigkeit der Erkennungsergebnisse verbessert werden soll, ermöglicht auch einen robusteren Betrieb.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 17: Beispielhafte Ausgabe des Szenenanalysators unter Verwendung von GPT-4V. Wir beschreiben unseren gesamten Prozess in Abschnitt 6.2.2.

Als nächstes stellt der Szenenanalysator die erwartete Arbeitsumgebung in Form von Textinformationen zusammen, die auf dem ersten Bild (oder Umgebungsbild) der Befehls- und Videodaten basieren. Diese Umgebungsinformationen umfassen eine Liste von Objektnamen, die vom GPT-4V erkannt werden, greifbare Attribute der Objekte und räumliche Beziehungen zwischen den Objekten. Obwohl diese Rechenprozesse in GPT-4V black-boxed sind, basieren sie auf dem Wissen von GPT-4V sowie auf den Bild/Text-Eingabe/Ausgabe-Informationen. Abbildung 17 zeigt ein Beispiel für die Ausgabe unseres Szenenanalysators. Wie man sieht, wählt GPT-4V erfolgreich Objekte aus, die für den Vorgang relevant sind. Wenn z. B. ein Mensch einen Spam-Behälter auf einem Tisch abstellt, wird ein Tisch in die Ausgabe aufgenommen, während der Tisch beim Öffnen des Kühlschranks ignoriert wird. Diese Ergebnisse deuten darauf hin, dass der Szenenanalysator Informationen über die Szene auf der Grundlage der menschlichen Handlungen kodiert. Wir fordern GPT-4V auf, die Ergebnisse des Objektauswahlprozesses und die Gründe für diese Auswahl zu erklären. In der Praxis haben wir festgestellt, dass dieser Ansatz zu einer angemessenen Ausgabe führt. Schließlich gibt der Aufgabenplaner auf der Grundlage der gegebenen Textanweisungen und Umgebungsinformationen eine Reihe von Aufgaben aus Wake et al. (2023c).

Verkörperte Intelligenz für die Roboternavigation.

Die Aufgabe der visuell-linguistischen Navigation (VLN) besteht darin, eine verkörperte Intelligenz zu navigieren, um natürlichsprachliche Befehle in einer realistischen 3D-Umgebung auszuführen. Das Navigieren in 3D-Umgebungen Zhu et al. (2017a); Mirowski et al. (2016); Mousavian et al. (2018); Hemachandra et al. (2015) ist eine wesentliche Fähigkeit für mobile intelligente Systeme, die in der physischen Welt operieren. In den letzten Jahren wurde eine große Anzahl von Aufgaben und Bewertungsprotokollen vorgeschlagen Savva et al. (2017); Kolve et al. (2017); Song et al. (2017); Xia et al. (2018); Anderson et al. (2018a), wie Anderson et al. (2018b) zusammengefasst in. Visual Linguistic Navigation (VLN) Anderson et al. (2018a) konzentriert sich auf sprachbasierte Navigation in realen 3D-Umgebungen. Um die Aufgabe der Visual Linguistic Navigation (VLN) zu lösen, entwickelten (Anderson et al., 2018a) ein aufmerksamkeitsbasiertes Sequenz-zu-Sequenz-Basismodell. Anschließend führten (Wang et al., 2018) einen hybriden Ansatz ein, der modellfreies und modellbasiertes Reinforcement Learning (RL) kombiniert, um die Generalisierung des Modells zu verbessern. Schließlich schlagen (Fried et al., 2018) ein Sprecherfolger-Modell vor, das Datenerweiterung, Panorama-Aktionsraum und modifizierte Strahlensuche für visuell-linguistische Navigation (VLN) einsetzt, um die aktuelle State-of-the-Art-Leistung auf dem Room-to-Room-Datensatz zu etablieren. Aufbauend auf früheren Arbeiten stellen wir in (Wang et al., 2019) Reinforced Cross-Modal Matching (RCM) für visuell-linguistische Navigation (VLN) vor.Das RCM-Modell baut auf Fried et al. (2018) auf, unterscheidet sich aber in einigen wichtigen Punkten:(1) RCM kombiniert eine neuartige Art von Multi-Reward Reinforcement Learning (RL) mit Reinforcement Learning für visuelle Sprachnavigation (VLN) mit Imitationslernen, während das Speaker-Follower-Modell von Fried et al. (2018) nur überwachtes Lernen verwendet, wie in (Anderson et al., 2018a) gezeigt. (2) Der RCM-Inferenznavigator führt eher eine cross-modale Lokalisierung als einen temporalen Aufmerksamkeitsmechanismus für unimodale Eingaben durch. (3) Der RCM Matching Critic ähnelt dem Lautsprecher in Bezug auf die Architektur, aber ersterer wird verwendet, um eine zyklische Rekonstruktion der intrinsischen Belohnungen für Reinforcement Learning (RL) und Self-Supervised Imitation Learning (SIL) Training zu liefern, während letzterer verwendet wird, um die Trainingsdaten für überwachtes Lernen zu erweitern. In (Wang et al., 2019) untersuchen wir, wie die drei wichtigsten Führungsherausforderungen für diese Aufgabe angegangen werden können: Modalübergreifende Lokalisierung, Feedback für Unzulänglichkeiten und das Generalisierungsproblem. Wie in Abb. 18 dargestellt, schlagen wir eine neuartige verstärkende cross-modale Matching-Methode vor, die die cross-modale Lokalisierung lokal und global durch verstärkendes Lernen (Reinforcement Learning, RL) erzwingt. Insbesondere wird ein Matching-Kommentator verwendet, um intrinsische Belohnungen bereitzustellen, um die globale Übereinstimmung zwischen Anweisungen und Trajektorien zu fördern, und ein Inferenznavigator wird verwendet, um die cross-modale Lokalisierung in der lokalen visuellen Szene durchzuführen. Die Auswertung des Visual Linguistic Navigation (VLN) Benchmark-Datensatzes zeigt, dass unser RCM-Modell den früheren Ansatz 10% auf SPL deutlich übertrifft und eine neue Spitzenleistung erreicht. Um die Generalisierbarkeit der Lernstrategie zu verbessern, führen wir außerdem einen Ansatz für selbstüberwachtes Imitationslernen (SIL) ein, um unbekannte Umgebungen zu erkunden, indem es seine eigenen guten vergangenen Entscheidungen imitiert. Wir zeigen, dass selbstüberwachtes Nachahmungslernen (SIL) bessere und effektivere Strategien annähern kann, wodurch sich der Leistungsunterschied in der Erfolgsrate zwischen gesehenen und ungesehenen Umgebungen deutlich verringert (von 30,7% auf 11,7%). Darüber hinaus führen wir in Wang et al. (2019) ein selbstüberwachtes Nachahmungslernverfahren für die Exploration ein, um das Generalisierungsproblem explizit anzugehen, das in früheren Arbeiten nicht vollständig untersucht wurde. Parallel zu dieser Arbeit untersuchten Thomason et al. (2018); Ke et al. (2019); Ma et al. (2019a, b) visuell-linguistische Navigationsaufgaben (VLN) unter verschiedenen Aspekten, und Nguyen et al. (2018) führten eine Variante der visuell-linguistischen Navigationsaufgabe (VLN) ein, um bei Bedarf sprachliche Hilfe anzufordern, um Objekte zu finden. Es ist anzumerken, dass wir die ersten sind, die die Erkundung von ungesehenen Umgebungen für visuell-linguistische Navigationsaufgaben (VLN) vorschlagen.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 18: Demonstration der visuell-linguistischen Navigation (VLN) bei der Aufgabe "Verkörperte Intelligenz" von Wang et al. (2019). Es werden Anweisungen, lokale visuelle Szenen und globale Trajektorien in der Draufsicht gezeigt. Der intelligente Körper hat keinen Zugriff auf die Draufsicht. Pfad A ist der Demonstrationspfad, der der Anweisung folgt. Die Pfade B und C sind zwei verschiedene Pfade, die vom intelligenten Körper ausgeführt werden.

6.3 Gesundheitspflege

Im Gesundheitswesen können große Sprachmodelle (Large Language Models, LLM) und visuelle Sprachmodelle (Visual Language Models, VLM) als diagnostische Intelligenz, als Assistenten für die Patientenversorgung und sogar als therapeutische Hilfsmittel fungieren, aber sie stehen auch vor einzigartigen Herausforderungen und Verantwortlichkeiten für die Verantwortlichen. Da KI-Intelligenzen über ein enormes Potenzial zur Verbesserung der Patientenversorgung und zur Rettung von Menschenleben verfügen, ist die Möglichkeit, dass sie missbraucht oder übereilt eingesetzt werden und Tausende oder sogar Millionen von Menschen auf der ganzen Welt gefährden könnten, ebenso gefährlich. Wir werden einige der vielversprechenden Möglichkeiten für KI-Intelligenzen im Gesundheitswesen erörtern und einige der wichtigsten Dilemmata für Führungskräfte ansprechen.

Diagnose der Intelligenzia.

Medizinische Chatbots, die große Sprachmodelle (Large Language Models, LLM) zur Patientendiagnose verwenden, haben in letzter Zeit aufgrund des hohen Bedarfs an medizinischen Fachkräften und des Potenzials von LLM zur Klassifizierung und Diagnose von Patienten viel Aufmerksamkeit auf sich gezogen Lee et al. (2023). Gesprächsintelligenzen, insbesondere solche, die einem breiten Spektrum von Menschen aus unterschiedlichen Patientenpopulationen wichtige medizinische Informationen effektiv vermitteln können, haben das Potenzial, historisch benachteiligten oder marginalisierten Gruppen einen gerechten Zugang zur Gesundheitsversorgung zu ermöglichen. Darüber hinaus sind Ärzte und Gesundheitssysteme auf der ganzen Welt weitgehend überlastet und unterfinanziert, was dazu führt, dass Hunderten von Millionen Menschen auf der ganzen Welt der Zugang zu einer angemessenen Gesundheitsversorgung verwehrt bleibt Weltgesundheitsorganisation und Weltbank (2015). Diagnostische Intelligenzen bieten eine besonders günstige Möglichkeit, die Gesundheitsversorgung für Millionen von Menschen zu verbessern, da sie mit der Fähigkeit ausgestattet werden können, ein breites Spektrum von Sprachen, Kulturen und Gesundheitszuständen zu verstehen. Vorläufige Ergebnisse deuten darauf hin, dass große Sprachmodelle (LMMs) mit Wissen über das Gesundheitswesen durch die Nutzung großer Netzwerkdaten trainiert werden können Li et al. (2023f). Auch wenn dies eine spannende Richtung ist, ist die Aussicht auf diagnostische Intelligenz nicht ohne Risiko. Wir werden uns in den folgenden Abschnitten auf die Risiken von Halluzinationen im Gesundheitswesen sowie auf mögliche Lösungsansätze konzentrieren.

Intelligenz bei der Wissensabfrage.

Im medizinischen Kontext sind Modellierungshalluzinationen besonders gefährlich und können je nach Schwere des Fehlers sogar zu schweren Verletzungen oder zum Tod des Patienten führen. Wenn beispielsweise ein Patient fälschlicherweise eine Diagnose erhält, die eine Krankheit suggeriert, die er in Wirklichkeit nicht hat, kann dies katastrophale Folgen haben. Diese Folgen können eine verzögerte oder unangemessene Behandlung oder in manchen Fällen das völlige Ausbleiben notwendiger medizinischer Maßnahmen sein. Der Schweregrad einer nicht oder falsch diagnostizierten Erkrankung kann zu erhöhten Gesundheitskosten, einer verlängerten Behandlung, die zu weiterer körperlicher Belastung führt, und in extremen Fällen zu schweren Verletzungen oder sogar zum Tod führen. Daher sind Methoden, die eine zuverlässigere Wissensabfrage unter Verwendung intelligenter Körper ermöglichen Peng et al. (2023) oder Methoden, die Text auf eine abfragebasierte Weise generieren Guu et al. (2020), vielversprechende Richtungen. Die Kopplung von diagnostischen Intelligenzen mit Intelligenzen für die medizinische Wissensabfrage hat das Potenzial, Halluzinationen deutlich zu reduzieren und gleichzeitig die Qualität und Genauigkeit der Antworten diagnostischer Dialogintelligenzen zu verbessern.

Telemedizin und Fernüberwachung.

Intelligente körpereigene KI hat auch ein großes Potenzial in der Telemedizin und Fernüberwachung, um den Zugang zur Gesundheitsversorgung zu verbessern, die Kommunikation zwischen Gesundheitsdienstleistern und Patienten zu verbessern und die Effizienz zu steigern und die Kosten für häufige Arzt-Patienten-Interaktionen zu senken Amjad et al. (2023). Kliniker in der Primärversorgung verbringen viel Zeit damit, Patientennachrichten, Berichte und E-Mails zu sichten, die für sie oft irrelevant oder unnötig sind. Unterstützende Intelligenz, die dabei helfen kann, Nachrichten von Ärzten, Patienten und anderen Gesundheitsdienstleistern zu kategorisieren und wichtige Nachrichten von allen Beteiligten hervorzuheben, hat ein enormes Potenzial. Die Telemedizin und die digitale Gesundheitsbranche verfügen über ein enormes Transformationspotenzial, wenn sie es intelligenten KI-Systemen ermöglichen, sich mit Patienten, Klinikern und anderen KI-Intelligenzen zu koordinieren.

6.3.1 Derzeitige Kapazitäten im Gesundheitswesen

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 19: Beispiele für Hinweise und Reaktionen bei der Verwendung von GPT-4V im Bereich des Bildverständnisses im Gesundheitswesen. Von links nach rechts: (1) Bilder eines CT-Scans, der von einer Krankenschwester und einem Arzt durchgeführt wurde, (2) ein synthetisches Bild eines unregelmäßigen EKG-Scans und (3) ein Bild aus dem ISIC Codella et al. (2018) Hautläsionsdatensatz. Wir sehen, dass GPT-4V über umfangreiches medizinisches Wissen verfügt und in der Lage ist, medizinische Bilder zu interpretieren. Allerdings ist es aufgrund des Sicherheitstrainings nicht in der Lage, bestimmte medizinische Bilder zu diagnostizieren.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 20: Beispielhafte Hinweise und Antworten bei der Verwendung von GPT-4V im Bereich des Verstehens von Gesundheitsvideos. Wir haben die Beispielvideos als 2x2-Raster eingegeben und den Text überlagert, um die Reihenfolge der Bilder anzugeben. In den ersten beiden Beispielen haben wir GPT-4V aufgefordert, Bilder im Video zu untersuchen, um klinische Aktivitäten am Krankenbett eines freiwilligen Patienten zu erkennen. Beim letzten Beispiel haben wir versucht, den GPT-4V aufzufordern, das Echokardiographie-Video zu bewerten, aber aufgrund der Sicherheitsschulung des GPT-4V hat er keine detaillierte Antwort gegeben. Zur Verdeutlichung haben wir den Text, der die interessierende Aktivität beschreibt, fett hervorgehoben und unnötige Modellantworten abgekürzt. Die Gesichter der Personen wurden ausgegraut, um ihre Privatsphäre zu schützen.

Bild Verstehen.

Abbildung 19 zeigt die derzeitigen Fähigkeiten und Grenzen moderner multimodaler Intelligenzen wie des GPT-4V im Gesundheitswesen. Wir sehen, dass das GPT-4V zwar über ein großes internes Wissen über die Geräte und Verfahren in der Krankenhausversorgung verfügt, aber nicht immer auf die eher präskriptiven oder diagnostischen Fragen des Benutzers reagiert.

Video-Verständnis.

Wir untersuchten die Leistung von visuellen Sprachmodellierungsintelligenzen (VLM) für das Verstehen von medizinischen Videos in zwei Kontexten. Erstens untersuchten wir die Fähigkeit der Visual Language Model (VLM)-Intelligenzen, wichtige Aktivitäten der Patientenversorgung im klinischen Bereich zu erkennen. Zweitens untersuchten wir die Anwendung des visuellen Sprachmodells (VLM) auf speziellere Videos wie Ultraschall. In Abbildung 20 zeigen wir einige der derzeitigen Möglichkeiten und Grenzen von GPT-4V für die Krankenhauspflege und die medizinische Videoanalyse.

6.4 Multimodale Intelligenzen

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 21: Interaktive multimodale Intelligenz besteht aus vier Säulen: Interaktion, Sprache, Sehen und Sprache. Der Co-Pilot Intelligent Body besteht aus verschiedenen Diensten.1) Interaktionsdienste helfen bei der Entwicklung einer einheitlichen Plattform für automatisierte Abläufe, Kognition und Entscheidungsfindung.2) Audiodienste integrieren Audio- und Sprachverarbeitung in Anwendungen und Dienste.3) Bildverarbeitungsdienste identifizieren und analysieren Inhalte in Bildern, Videos und digitaler Tinte.4) Sprachdienste extrahieren Bedeutung aus strukturiertem und unstrukturiertem Text.

Die Integration von Seh- und Sprachverständnis ist entscheidend für die Entwicklung komplexer multimodaler KI-Intelligenzen. Dazu gehören Aufgaben wie Bildunterschriften, die Beantwortung visueller Fragen, die Erzeugung von Videosprache und das Verstehen von Videos. Unser Ziel ist es, diese visuell-sprachlichen Aufgaben zu erforschen und die führenden Herausforderungen und Möglichkeiten zu untersuchen, die sie im Zusammenhang mit KI-Intelligenzen darstellen.

6.4.1 Verstehen und Erzeugen von Bildsprache

Das Verstehen von Bildsprache ist eine Aufgabe, die darin besteht, den sprachlichen visuellen Inhalt eines gegebenen Bildes zu interpretieren und die dazugehörige sprachliche Beschreibung zu erstellen. Diese Aufgabe ist entscheidend für die Entwicklung von KI-Intelligenzen, die auf menschenähnliche Weise mit der Welt interagieren können. Einige der beliebtesten Aufgaben sind Bildunterschriften Lin et al. (2014); Sharma et al. (2018); Young et al. (2014); Krishna et al. (2016), Fingerrepräsentation Yu et al. (2016); Karpathy et al. (2014) und Beantwortung visueller Fragen Antol et al. (2015); Ren et al. (2015); Singh et al. (2019).

Kürzlich wurden wissensintensive Aufgaben zur Beantwortung visueller Fragen wie OKVQA Marino et al. (2019), KB-VQA Wang et al. (2015), FVQA Wang et al. (2017) und WebQA Chang et al. (2021) eingeführt. Multimodale Intelligenzen sollten in der Lage sein, Objekte in einem Bild zu erkennen, ihre räumlichen Beziehungen zu verstehen, genaue beschreibende Sätze über die Szene zu generieren und Inferenzfähigkeiten zu nutzen, um wissensintensive visuelle Schlussfolgerungen zu handhaben. Dies erfordert nicht nur Fähigkeiten zur Objekterkennung, sondern auch ein tiefgreifendes Verständnis räumlicher Beziehungen, visueller Semantik und die Fähigkeit, diese visuellen Elemente auf sprachliche Strukturen mit Weltwissen abzubilden.

6.4.2 Video- und Sprachverstehen und -erzeugung

Generation der Videosprache.

Videountertitelung oder Videoerzählung ist die Aufgabe, kohärente Sätze für eine Reihe von Videobildern zu generieren. Inspiriert durch den Erfolg des rekurrenten, groß angelegten Basismodells, das bei Video- und Sprachaufgaben eingesetzt wird, zeigen Varianten des intelligenzgesteuerten Augmentierungsmodells vielversprechende Ergebnisse bei der Erzeugung von Videosprache. Die grundlegende Herausforderung besteht darin, dass die Robustheit des neuronalen Encoder-Decoder-Modells für das visuelle Geschichtenerzählen nicht gut funktioniert, da die Aufgabe ein umfassendes Verständnis des Inhalts jedes Bildes und der Beziehungen zwischen den verschiedenen Frames erfordert. Ein wichtiges Ziel in diesem Bereich ist es, ein intelligentes, körperbewusstes Textsynthesemodell zu schaffen, das Bildsequenzen effizient kodieren und einen thematisch kohärenten mehrsätzigen Absatz erzeugen kann.

Video-Verständnis.

Das Verstehen von Videos erweitert den Bereich des Bildverstehens auf dynamische visuelle Inhalte. Dazu gehört das Interpretieren und Schlussfolgern von Bildsequenzen in einem Video, oft in Verbindung mit begleitenden Audio- oder Textinformationen. Intelligente Menschen sollten in der Lage sein, mit einer Vielzahl von visuellen, textlichen und akustischen Modalitäten zu interagieren, um ihr fortgeschrittenes Verständnis von Videoinhalten zu demonstrieren. Zu den Aufgaben in diesem Bereich gehören das Untertiteln von Videos, das Beantworten von Videofragen und die Erkennung von Aktivitäten. Die Herausforderungen beim Verstehen von Videos sind vielschichtig. Dazu gehören die zeitliche Abstimmung von visuellen und verbalen Inhalten, die Verarbeitung langer aufeinander folgender Bilder und die Interpretation komplexer Aktivitäten, die sich im Laufe der Zeit entfalten. In Bezug auf Audio können Intelligenzler gesprochene Worte, Hintergrundgeräusche, Musik und Intonation verarbeiten, um die Stimmung, das Umfeld und die Nuancen von Videoinhalten zu verstehen.

Bisherige Arbeiten konzentrierten sich auf die Verwendung vorhandener, online verfügbarer Videosprachtrainingsdaten zur Erstellung von Videobasismodellen Li et al. (2020, 2021b); Fu et al. (2022); Bain et al. (2021); Zellers et al. (2021, 2022); Fu et al. (2023). Die Unterstützung solcher Trainingsprozesse und Funktionen ist jedoch aufgrund der begrenzten und oft inkonsistenten Natur dieser Datensätze schwierig. Videobasismodelle werden anhand von Masken- und Kontrastvorgaben für das Training entwickelt und dann an die jeweiligen Aufgaben angepasst. Trotz hervorragender Ergebnisse in multimodalen Benchmarks haben diese Modelle bei reinen Videoaufgaben wie der Handlungserkennung Probleme, da sie sich auf begrenzte Videotextdaten stützen, die aus verrauschten Audiotranskriptionen erstellt wurden. Diese Einschränkung führt auch zu einem Mangel an Robustheit und feinkörnigen Schlussfolgerungsfähigkeiten, über die große Sprachmodelle normalerweise verfügen.

Andere Ansätze, ähnlich denen, die beim Verstehen von Bildsprache verwendet werden, nutzen die leistungsstarken Argumentationsfähigkeiten und das umfangreiche Wissen großer Sprachmodelle, um verschiedene Aspekte der Videointerpretation zu verbessern. Die Aufgabe des Videoverständnisses wird durch reine Sprachmodelle wie ChatGPT und GPT4 oder Bildsprachmodelle wie GPT4-V vereinfacht, die Audio-, Video- und Sprachmodalitäten als separate interpretierbare Eingabedatentypen behandeln und Intelligenzia als leistungsstarke Open-Source-Modelle positionieren. Huang et al. (2023c) und Li et al. (2023g) beispielsweise wandeln das Videoverständnis in Formeln zur Beantwortung von Fragen der natürlichen Sprachverarbeitung (NLP) um, indem sie Videoinhalte unter Verwendung von Open-Source-Modellen zur visuellen Klassifizierung/Erkennung/Untertitelung textualisieren.Lin et al. (2023) integrieren GPT4-V mit speziellen Tools für Bild, Ton und Sprache um komplexe Videoverstehensaufgaben wie das Skripting von Charakteraktionen und -manipulationen in langen Videos zu erleichtern.

In parallelen Studien wurde untersucht, wie skalierte Datensätze aus großen Modellen generiert und dann visuelle Anweisungsanpassungen auf die generierten Daten angewendet werden Liu et al. (2023c); Li et al. (2023c); Zhu et al. (2023). Das Video wurde dann mithilfe einer großen Anzahl von Audio-, Sprach- und visuellen Wahrnehmungsmodellen von Experten dargestellt. Sprache wurde mit einem automatischen Spracherkennungsprogramm transkribiert, und Videobeschreibungen und zugehörige Daten wurden mit verschiedenen Beschriftungs-, Positionierungs- und Untertitelungsmodellen erstellt Li et al. (2023g); Maaz et al. (2023); Chen et al. (2023); Wang et al. (2023f). Diese Techniken demonstrieren, wie die Anpassung der Anweisungen eines Videosprachmodells an einen generierten Datensatz die Videokommunikationsfähigkeiten verbessern kann.

6.4.3 Experimente und Ergebnisse

Wissensintensive Modelle: Eine intensive neuronale Wissensaufgabe, die das erforderliche Wissen menschlicher Annotationen kombiniert, um wissensintensive Retrievalaufgaben zu unterstützen, wie in INK Park et al. (2022) und KAT Gui et al. (2022a) vorgestellt.
Multimodale Intelligenzen: Es besteht ein wachsendes Interesse an multimodalen Sprachmodellen wie Chameleon Lu et al. (2023) und MM-React Yang et al. (2023c).
Visuelle Befehlsanpassung: VCL Gui et al. (2022b), Mini-GPT4 Zhu et al. (2023), MPLUG-OWL Ye et al. (2023b), LSKD Park et al. (2023c) zur Erzeugung von Datensätzen für die Anpassung von Anweisungen auf Bildebene.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 22: Beispiel für die Aufgabe Intensive Neural Knowledge (INK) von Park et al. (2022), bei der Wissen verwendet wird, um bildbezogenen Text aus einer Reihe von Textkandidaten zu identifizieren. Unsere Aufgabe beinhaltet die Nutzung von visuellem und textuellem Wissen, das aus dem Web abgerufen wird, sowie von manuell annotiertem Wissen.

Wissensintensive Intelligenzen.

Wie aus den Abbildungen 22 und 23 hervorgeht, sind wissensbasierte visuelle Fragen und visuelle Sprachabfragen anspruchsvolle Aufgaben des multimodalen maschinellen Lernens, die über den Bildinhalt hinaus externes Wissen erfordern. Jüngste Forschungen zu groß angelegten Transformatoren haben sich in erster Linie auf die Maximierung der Effizienz der Speicherung von Informationen über Modellparameter konzentriert. Dieser Forschungszweig untersucht einen anderen Aspekt: ob multimodale Transformers explizites Wissen in ihrem Entscheidungsprozess nutzen können. Auf Transformern basierende Pre-Training-Methoden haben hervorragende Erfolge beim impliziten Lernen von Wissensrepräsentationen über mehrere Modalitäten hinweg gezeigt. Herkömmliche (hauptsächlich unimodale) Ansätze haben sich jedoch hauptsächlich mit dem Abrufen von Wissen und der anschließenden Vorhersage von Antworten befasst, was Fragen über die Qualität und Relevanz des abgerufenen Wissens sowie die Integration von Schlussfolgerungsprozessen unter Verwendung von implizitem und explizitem Wissen aufwirft. Um diese Fragen zu klären, stellen wir den Knowledge Augmentation Transformer (KAT) vor, der andere Modelle bei der multimodalen Aufgabe OK-VQA 2022 um 6% übertrifft. KAT kombiniert implizites Wissen aus GPT3 mit explizitem Wissen aus Websites unter Verwendung einer Encoder-Decoder-Architektur und ermöglicht die Verwendung beider Wissenstypen während der gleichzeitigen Schlussfolgerung bei der Generierung von Antworten. gleichzeitige Argumentation bei der Generierung von Antworten unter Verwendung beider Wissenstypen. Darüber hinaus verbessert die Kombination von explizitem Wissen die Interpretierbarkeit von Modellvorhersagen. Der Code und das vortrainierte Modell sind unter https://github.com/guilk/KAT zu finden.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 23: KAT-Modell Gui et al. (2022a) rufen Wissenseinträge aus der expliziten Wissensbasis mithilfe eines auf Kontrastlernen basierenden Moduls ab und rufen implizites Wissen mit unterstützenden Beweisen mithilfe von GPT-3 ab. Die Integration des Wissens erfolgt durch den jeweiligen Encoder Transformer und die Generierung der Antworten erfolgt gemeinsam durch das End-to-End-Trainings- und Reasoning-Modul und den Decoder Transformer.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 24: Allgemeine Architektur des VLC-Modells Gui et al. (2022b). Unser Modell besteht aus drei Modulen: (1) Modalitätsspezifische Projektionen. Wir verwenden eine einfache lineare Projektion, um gepatchte Bilder einzubetten, und eine Worteinbettungsschicht, um tokenisierten Text einzubetten; (2) einen multimodalen Encoder. Wir verwenden den 12-schichtigen ViT Dosovitskiy et al. (2021), initialisiert von MAE He et al. (2022) (ImageNet-1K ohne Labels), als Backbone; (3) aufgabenspezifischer Decoder. Wir lernen unsere multimodale Repräsentation durch maskierte Bild-/Sprachmodellierung und Bild-Text-Abgleich, die nur während des Vortrainings verwendet werden. Zur Feinabstimmung unseres multimodalen Kodierers für nachgelagerte Aufgaben verwenden wir einen 2-schichtigen MLP. Wichtig ist, dass wir feststellen, dass das Ziel der maskierten Bildmodellierung in der zweiten Phase des Pre-Trainings wichtig ist, nicht nur für die Initialisierung des visuellen Transformers.

Visuelle Sprache Transformer Intelligenzen.

Als Nächstes stellen wir das Modell "Training Visual Language Transformer from Captions" (VLC) von Gui et al. (2022b) vor, einen Transformator, der nur mit Bildunterschriftenpaaren trainiert wird. Obwohl VLC nur einfache lineare Projektionsschichten für die Bildeinbettung verwendet, erzielt VLC im Vergleich zu anderen Methoden, die sich auf Objektdetektoren oder überwachte CNN/ViT-Netzwerke stützen, konkurrenzfähige Ergebnisse bei einer Vielzahl von visuellen Sprachaufgaben. VLC erzielt konkurrenzfähige Ergebnisse in einer Vielzahl von visuellen Sprachaufgaben im Vergleich zu anderen Ansätzen, die sich auf Objektdetektoren oder überwachte CNN/ViT-Netzwerke stützen. Durch umfangreiche Analysen erkunden wir das Potenzial von VLC als visuelle Sprach-Transformator-Intelligenz. Wir zeigen beispielsweise, dass die visuelle Repräsentation von VLC bei der ImageNet-1K-Klassifikation sehr effektiv ist, und unsere Visualisierungen bestätigen, dass VLC Bildabschnitte genau mit den entsprechenden Text-Tokens abgleichen kann. Die Skalierung der Leistung mit zusätzlichen Trainingsdaten unterstreicht das große Potenzial für die Entwicklung groß angelegter, schwach überwachter, domänenoffener visueller Sprachmodelle.

6.5 Video-Sprachexperimente

Um den Nutzen der Verwendung von vortrainierten Image-Large Language Models (LLMs) für das Videoverständnis zu verstehen, haben wir InstructBLIP Dai et al. (2023) zeitlich erweitert und für die Generierung von Videobeschriftungen feinabgestimmt. Insbesondere haben wir den visuellen Codierer von InstructBLIP (EVA-CLIP-G Sun et al. (2023b)) unter Verwendung desselben segmentierten räumlich-zeitlichen Aufmerksamkeitsschemas wie Frozen in Time Bain et al. (2021) erweitert und den Q-Former und das große Sprachmodell (LLM) während des Trainings (Flan-T5-XL Chung et al. (2022)) eingefroren. Wir frieren alle räumlichen Schichten des visuellen Codierers ein, während wir die zeitliche Schicht während des Trainings der Beschriftungen nicht einfrieren. Dadurch kann unser Modell Bilder und Videos als Eingabe verwenden (was der Leistung von InstructBLIP auf Bildebene entspricht). Wir trainierten mit einer Untermenge von 5 Millionen Videobeschriftungen aus WebVid10M Bain et al. (2021). Zwei Beispielergebnisse sind in Abbildung 25 dargestellt. Die vorhandenen Intelligenzen sind jedoch nicht in der Lage, die präzisen, feinkörnigen visuellen Details von Videoinhalten vollständig zu verstehen. Methoden zur Feinabstimmung visueller Befehle leiden unter ähnlichen Einschränkungen, da ihnen generische Wahrnehmungsfähigkeiten auf menschlicher Ebene fehlen, die von multimodalen Modellen und Intelligenzen noch nicht berücksichtigt werden.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 25: Beispiel für Hinweise und Antworten bei Verwendung der Video-Feinabstimmungsvariante von InstructBLIP (die in Abschnitt 6.5 beschriebene Methode). Unser Modell ist in der Lage, lange Textantworten zu generieren, die die Szene beschreiben, und ist in der Lage, Fragen in Bezug auf die Zeitlichkeit der Ereignisse im Video zu beantworten.

Die Modelle zur Feinabstimmung der Befehle sind vielversprechend, wenn es darum geht, die im Video sichtbaren Handlungen genau zusammenzufassen und Handlungen wie die "auf der Bank sitzende Person" effektiv zu identifizieren, wie in Abbildung 25 gezeigt. Allerdings fügen sie manchmal falsche Details hinzu, wie z. B. die "Person, die in die Kamera lächelt", was eine Unzulänglichkeit bei der Erfassung des Themas des Dialogs oder der Atmosphäre des Videos offenbart, Elemente, die für einen menschlichen Beobachter offensichtlich wären. Diese Unzulänglichkeit verdeutlicht eine weitere wichtige Einschränkung: das Fehlen von Audio- und Sprachmodalitäten, die das Videoverständnis durch den Kontext bereichern würden, um genauere Interpretationen zu ermöglichen und solche Fehldarstellungen zu verhindern. Um diese Lücke zu schließen, ist eine ganzheitliche Integration der verfügbaren Modalitäten erforderlich, damit multimodale Intelligenzen ein ähnliches Verständnisniveau wie die menschliche Wahrnehmung erreichen und ein vollständig multimodaler Ansatz für die Videointerpretation gewährleistet werden kann.

GPT-4V-basierte audio-video-verbale Intelligenz.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 26: Die in Abschnitt 6.5 beschriebenen audio-multimodalen Intelligenzen. Illusorische Inhalte sind rot hervorgehoben. Wir verwendeten GPT-4V, um 1) Video-Chat-Zusammenfassungen mit Video-Frames, 2) Video-Zusammenfassungen mit Frame-Titeln und 3) Video-Zusammenfassungen mit Frame-Titeln und Audio-Informationen zu erstellen.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 27: Eine interaktive multimodale Intelligenz, die visuelle, akustische und textuelle Modalitäten zum Verstehen von Videos kombiniert. Unser Verfahren nutzt schwierige negative Illusionen, um schwierige Abfragen für die VideoAnalytica-Herausforderung zu generieren. Weitere relevante Details zum Interactive Audio-Video-Language Intelligentsia-Datensatz finden Sie in Abschnitt 9.2.

Wir folgen dann dem in Lin et al. (2023) beschriebenen Ansatz, um die Fähigkeit des GPT-4V zu bewerten, als multimodale Intelligenz zu fungieren, die Bild, Ton und Sprache für ein detailliertes und genaues Verständnis von Videos integriert. Die in Abbildung 26 dargestellten Ergebnisse vergleichen die Leistung verschiedener Video-Intelligenzen bei einer Video-Zusammenfassungsaufgabe. Das Modell für die Feinabstimmung von Videoanweisungen (Li et al., 2023g) liefert zwar genaue Inhalte, ist aber nicht umfassend und detailliert genug, da es bestimmte Handlungen auslässt, wie z. B. die systematische Verwendung eines Besens zur Messung der Höhe eines Baumes.

Um die Genauigkeit der Videobeschreibungen zu verbessern, verwenden wir GPT-4V für die Untertitelung der Bilder, während der Ton und seine Transkription von OpenAI stammen Flüstern Modell. Anschließend haben wir GPT-4V aufgefordert, Videozusammenfassungen mit reinen Bildunterschriften zu erstellen, gefolgt von reinen Bildunterschriften und Audiotranskription. Zunächst stellten wir fest, dass die reine Bilduntertitelung zu fiktiven Ereignissen führte, z. B. dass jemand im dritten Segment in einen Stock biss. Diese Ungenauigkeiten setzten sich in den Videozusammenfassungen fort, z. B. in Form von Beschreibungen wie "in einer interessanten Wendung biss er in den Stock, während er ihn waagerecht hielt". Ohne Audio-Input sind die Intelligenzen nicht in der Lage, diese Fehler in den Untertiteln zu korrigieren, was zu semantisch korrekten, aber visuell irreführenden Beschreibungen führt.

Wenn wir jedoch einem intelligenten Körper eine Audiotranskription zur Verfügung stellen, kann er den Inhalt genau beschreiben und sogar detaillierte Körperbewegungen erfassen, wie z. B. "den Besen senkrecht zum Körper und nach unten drehen". Diese Detailgenauigkeit ist sehr viel informativer und ermöglicht es dem Betrachter, den Zweck und die wichtigsten Details des Videos besser zu verstehen. Diese Ergebnisse unterstreichen, wie wichtig die Integration von Audio-, Video- und verbalen Interaktionen für die Entwicklung hochwertiger multimodaler Intelligenz ist, und das GPT-4V dient als vielversprechende Grundlage für ein solches fortgeschrittenes multimodales Verständnis und eine solche Interaktion.

GPT-4V-basierte verkörperte multimodale Intelligenzen.

Wie in Abbildung 27 dargestellt, verwenden wir hauptsächlich StackOverflow, um die ursprüngliche Frage zu erhalten, und nutzen dann die "Bing Search"-API, um die Video- und Audiodaten zur Frage abzurufen. Anschließend verwenden wir hauptsächlich GPT-4V, um relevante Textinformationen und hochwertige Videobeschreibungen zu erhalten. Auf der anderen Seite verwenden wir ASR, um Keyframe-Audio in Low-Level-Fragmentbeschreibungen von Keyframes zu konvertieren. Schließlich verwenden wir GPT-4V, um überzeugende "Illusionen" zu generieren, die als schwierige Negativabfragen für Video-Quiz-Aufgaben verwendet werden können. Wir unterstützen die Interaktion und das Quiz im aktuellen Frame des Videos sowie die Zusammenfassung der gesamten High-Level-Videobeschreibung. Während des Schlussfolgerungsprozesses beziehen wir auch externes Wissen ein, das wir durch Websuchen gewonnen haben, um die Beantwortung zu verbessern.

Im Folgenden werden die wichtigsten GPT-4V-Eingabeaufforderungen beschrieben. Die gesamte Eingabeaufforderung ist aus Gründen der Übersichtlichkeit eingerückt; sie erstreckt sich über eine Seite.

GPT-4V ist ein Assistent, der entwickelt wurde, um beschreibende, informative und umfassende Details in Videos für sehbehinderte Menschen bereitzustellen, die das Video hören, aber nicht sehen können. Diese Arbeit erfolgt durch die Synthese von gegebenen Kommentaren und deren Ausgabe als JSON, um qualitativ hochwertige, dichte Videobeschreibungen zu erstellen. Konkret erhält GPT-4V die ursprüngliche Suchanfrage für das Video, den Videotitel, die Beschreibung, die Audiotranskription und potenziell verrauschte Beschreibungen zu bestimmten Zeiten im Video. Verschiedene Segmente desselben Videos werden als "[Zeit Anfang - Zeit Ende (in Sekunden)] 'Text'" kommentiert. Eine Kombination aus Transkriptionen und Beschreibungen wird verwendet, um die genauen Details und die visuelle Darstellung des Geschehens im Video zu ermitteln. GPT-4V kombiniert oder teilt die Zeitstempel nach Bedarf, um eine optimale Segmentierung des Videos zu erreichen.

Erwartungen an den GPT-4V-Ausgang:

Handlungsorientierte Beschreibungen: Bevorzugen Sie audiounterstützte, plausible Handlungen, Bewegungen und physische Demonstrationen und bereichern Sie Ihre Erzählung mit dynamischen visuellen Hinweisen.
Vollständige Videoabdeckung: bietet eine kontinuierliche und konsistente Audiobeschreibung, die jeden Moment des Videos abdeckt und sicherstellt, dass kein Inhalt ausgelassen wird.
Prägnante Segmentierung: Bauen Sie Ihre Beschreibungen in fokussierte, prägnante Segmente von jeweils 1-2 Sätzen auf, um die visuelle Aktion effektiv zu vermitteln, ohne zu sehr ins Detail zu gehen.
Kontextuelle audiovisuelle Synthese: Nahtlose Verschmelzung verbaler Audioinhalte mit abgeleiteten visuellen Elementen, um eine Erzählung zu bilden, die die zugrunde liegende Bildschirmaktivität widerspiegelt.
Fantasievolle und plausible Spekulationen: Versehen Sie Ihre Beschreibungen mit kreativen, aber plausiblen visuellen Details, die mit dem Audio übereinstimmen, um das Verständnis der Szene zu verbessern.
Präzise Timecode-Korrespondenz: Richten Sie Ihre beschreibenden Schnipsel mit dem entsprechenden Timecode aus und stellen Sie so sicher, dass die vermeintlichen visuellen Details mit der Zeitachse des Audiomaterials synchronisiert sind.
Selbstbewusstes Erzählen: Beschreibungen so vortragen, als würde die vermutete Visualisierung tatsächlich stattfinden, um beim Zuhörer Vertrauen zu schaffen.
Unangemessene Details auslassen: Beschreibungen von Objekten oder Ereignissen ausschließen, die nicht in den durch die Audio- und visuellen Informationen geschaffenen Kontext passen.

Die endgültige Ausgabe sollte im JSON-Format strukturiert sein und eine Liste von Wörterbüchern enthalten, in denen jeweils ein Segment des Videos beschrieben wird.

['start': , 'end': , 'text': ""]

Für die MC-Erstellung: Unsere Aufgabe ist es, Multiple-Choice-Fragen für eine Video-zu-Text-Retrieval-Aufgabe zu erstellen, die leicht gelöst werden können, indem man sich den Titel ansieht und die Audiotranskription durchliest. Dazu benötigen wir die ursprüngliche Abfrage, mit der das Video abgerufen wurde, die Beschreibung, die Audiotranskription und eine potenziell verrauschte Beschreibung eines bestimmten Zeitpunkts im Video.

Format für die Audiotranskription: - [Start-Endzeit in Sekunden] "Transkribieren"
Format der Rauschbeschreibung: - [Zeit in Sekunden] "Beschreibung"

Wir fordern GPT-4V auf, vier Abfragen zu generieren, wobei die primäre Abfrage auf den Videoinhalt abgestimmt ist und die anderen drei negativen Abfragen sich leicht von unserer primären Abfrage unterscheiden. Die Auswahl der primären Abfrage sollte nicht einfach das Anhören der Audiotranskription beinhalten, z.B. wenn die ursprüngliche Textabfrage in der Audiotranskription enthalten ist. Negative Suchanfragen sollten eng mit dem Videoinhalt verwandt, aber nicht vollständig auf ihn abgestimmt sein, und erfordern ein visuelles Verständnis des Videos, um sie zu unterscheiden. Ändern Sie z. B. die Semantik auf subtile Weise, so dass man das Video ansehen und nicht nur anhören muss, um die ursprüngliche Abfrage auszuwählen. Stellen Sie vier Abfragen in untertitelähnlichen Anweisungen zusammen, wobei die erste Abfrage die umformulierte Originalabfrage ist.

Überlegen Sie Schritt für Schritt, wie Sie die Informationen aus dem Video nutzen können, um negative Aussagen zu formulieren. Und beweisen Sie, dass negative Suchanfragen zwar falsch sind, aber dennoch eine überzeugende Wahl darstellen, die ein sorgfältiges Verständnis des Videos erfordert. Und wie Menschen nicht versehentlich die negative Frage der ursprünglichen Frage vorziehen.

Schließlich präsentieren wir diese Arbeit in Form der folgenden Analyse und 4 Abfragen. Es ist nicht nötig, die Übersetzung der Originalabfragen zu erstellen.

Videoanalyse: xxx
Abfragen: [Abfrage1, Abfrage2, Abfrage3, Abfrage4]
Grund: xxx

6.6 Intelligentsia für die Verarbeitung natürlicher Sprache (NLP)

6.6.1 Großes Sprachmodell (LLM) Intelligentsia

Das Erkennen und Umsetzen von Aufgabenanweisungen ist seit Jahrzehnten eine grundlegende Herausforderung in der interaktiven KI und der Verarbeitung natürlicher Sprache. Mit den jüngsten Fortschritten beim Deep Learning wächst das Interesse an einer Zusammenarbeit in diesen Bereichen, um die Zusammenarbeit zwischen Mensch und Computer zu verbessern. Wir identifizieren drei spezifische Richtungen sowie weitere, um sprachbasierte Intelligenz zu verbessern:

Verwendung von Tools und Abfragen der Wissensdatenbank. Diese Richtung unterstreicht die Bedeutung der Integration von externen Wissensdatenbanken, Websuchen oder anderen nützlichen Tools in den Denkprozess von KI-Intelligenzen. Durch die Nutzung strukturierter und unstrukturierter Daten aus einer Vielzahl von Quellen können Intelligenzen ihr Verständnis verbessern und genauere und kontextbezogene Antworten geben. Darüber hinaus wird die Fähigkeit der Intelligenzen gefördert, proaktiv nach Informationen zu suchen, wenn sie mit unbekannten Situationen oder Fragen konfrontiert werden, wodurch eine umfassendere und fundiertere Antwort gewährleistet wird. Beispiele sind Toolformer Schick et al. (2023) und Retrieve What You Need Wang et al. (2023g).
Verbessertes Intelligent Body Reasoning und Planung. Die Verbesserung der Denk- und Planungsfähigkeiten von Intelligenzen ist eine wesentliche Voraussetzung für eine effektive Zusammenarbeit zwischen Mensch und Maschine. Dazu müssen Modelle entwickelt werden, die in der Lage sind, komplexe Befehle zu verstehen, die Absicht des Benutzers zu erkennen und potenzielle zukünftige Szenarien vorherzusagen. Dies kann erreicht werden, indem Intelligenzen aufgefordert werden, über vergangene Handlungen und Fehler nachzudenken, wie in ReAct Yao et al. (2023a), oder indem die Denkprozesse der Intelligenzen als eine Form der Suche konstruiert werden Yao et al. (2023b). Indem sie verschiedene Ergebnisse modellieren und die Folgen verschiedener Handlungen bewerten, können die Intelligenzen fundiertere, kontextbezogene Entscheidungen treffen.
Integration von Systemen und menschlichem Feedback. KI-Intelligenzen können in der Regel in zwei Umgebungen arbeiten: in einer, die klare Signale über die Wirksamkeit ihrer Handlungen liefert (System-Feedback), und in einer anderen, die mit Menschen zusammenarbeitet, die verbale Kritik üben können (menschliches Feedback). Diese Richtung unterstreicht den Bedarf an adaptiven Lernmechanismen, die es den Intelligenzen ermöglichen, ihre Strategien zu verbessern und Fehler zu korrigieren, z. B. in der AutoGen In Wu et al. (2023). Die Fähigkeit, aus verschiedenen Feedback-Quellen kontinuierlich zu lernen und sich anzupassen, stellt sicher, dass die Intelligenzen hilfreich bleiben und den Bedürfnissen der Nutzer entsprechen.

6.6.2 Generisches großes Sprachmodell (LLM) Intelligentsia

Das Erkennen und Verstehen von intelligenten Körperinhalten und natürlicher Sprache ist seit Jahrzehnten eine grundlegende Herausforderung in der interaktiven KI und der Verarbeitung natürlicher Sprache. Mit den jüngsten Fortschritten im Bereich des Deep Learning wächst das Interesse, diese beiden Bereiche gemeinsam zu untersuchen, um ein tieferes Verständnis der intelligenten Körperplanung oder des menschlichen Feedbacks für die Wissensgenerierung und die Erzeugung natürlicher Sprache zu erlangen. Dies sind Schlüsselkomponenten vieler KI-Intelligenzen, wie "AutoGen" Wu et al. (2023) und "Retrieve What You Need" Wang et al. (2023g).

6.6.3 Anweisungen folgen den Intelligenzen des Large Language Model (LLM)

Darüber hinaus ist die Schaffung von LLM-Intelligenzen, die so trainiert werden können, dass sie menschliche Anweisungen effektiv befolgen, zu einem wichtigen Forschungsbereich geworden. Erste Modelle nutzten menschliches Feedback, um die Belohnungsmodelle der Agenten zu trainieren, damit sie die menschlichen Präferenzen durch einen Prozess namens Reinforcement Learning Based on Human Feedback (RLHF) nachahmen, Ouyang et al. (2022). Dieser Prozess erzeugt Modelle wie InstructGPT und ChatGPT. Um Anweisungen effizienter zu trainieren, damit sie LLM-Intelligenzen folgen, ohne dass eine menschliche Kennzeichnung erforderlich ist, haben Forscher eine effizientere Methode zur Feinabstimmung von Anweisungen entwickelt, bei der LLM-Intelligenzen direkt auf Anweisungs-/Antwort-Paaren trainiert werden, die entweder von Menschen erzeugt wurden, z. B. Dolly 2.0 ^5^^^5^Dolly 2.0 Blog Post Link oder automatisch von LLM abgeleitet wurden, z. B. Alpaca Taori et al. (2023). Wir zeigen den gesamten Trainingsprozess von Alpaca in Abbildung 28.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 28: Trainingsschema zum Trainieren des Alpaca-Modells Taori et al. (2023). Auf einer hohen Ebene werden die verfügbaren LLMs verwendet, um eine große Anzahl von anweisungsgeleiteten Beispielen aus einem kleinen Satz von Startaufgaben zu erzeugen. Die generierten anweisungsgebundenen Beispiele werden dann zur Feinabstimmung der Anweisungen auf die für die zugrunde liegenden Modellgewichte verfügbaren LLMs verwendet.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 29: Logic Transformer Intelligent Body Modell Wang et al. (2023e). Wir integrieren das Modul für logische Schlussfolgerungen in das auf dem Transformer basierende Modell für abstrakte Zusammenfassungen, um die logischen Intelligenzen zu befähigen, über Text- und Dialoglogik zu schlussfolgern, wodurch sie in die Lage versetzt werden, qualitativ hochwertigere abstrakte Zusammenfassungen zu erstellen und sachliche Fehler zu reduzieren.

6.6.4 Experimente und Ergebnisse

Trotz der zunehmenden Beliebtheit von Konversations- und Self-Feedback-Systemen sind diese Formen der KI nach wie vor nicht in der Lage, sachlich korrekte Antworten aus ihrem eigenen impliziten Wissen zu generieren, so dass sie häufig auf externe Tools wie Websuche und Wissensabfragemechanismen zurückgreifen, um ihre Antworten zu ergänzen. Die Lösung dieses Problems wird dazu beitragen, dass die Nutzer in vielen realen Anwendungen mehr Spaß an der Sache haben. In sozialen Konversationen (z. B. auf Social-Media-Plattformen wie Instagram und Facebook) oder auf Frage- und Antwortseiten (z. B. Ask oder Quora) interagieren Menschen in der Regel mit anderen durch eine Reihe von Kommentaren und durch die Suche im Web nach Informationen und Wissen, die für die Diskussion relevant sind. Daher wird die Aufgabe, Gesprächsrunden in diesem Kontext zu generieren, nicht nur von traditionellen NLP-Modellen und -Aufgaben geleitet, sondern nutzt Intelligenzen, um Dialoge durch intelligente Verhaltensweisen zu generieren, die die Suche und den Erwerb von Wissen widerspiegeln Peng et al. (2023). Auf diese Weise erweitern intelligente Intelligenzen für NLP-Aufgaben die Aufgabenbeschreibung und verbessern die Interpretierbarkeit der Antwort, indem sie während des Dialogs explizite Schritte zur Wissenssuche und -beschaffung hinzufügen. Die Integration dieser Web-Such- und Retrieval-Intelligenzen als Feedback während eines Dialogs würde dazu beitragen, soziale Interaktionen zwischen Menschen und Intelligenzen weiter und tiefer zu erleichtern Wang et al. (2023e). Wie in Abb. 29 dargestellt, führen wir ein neues Modellierungsparadigma für das Transformer-Sprachmodell ein, das wichtige logische Strukturen und Informationen aus dem Eingabetext erkennt und extrahiert und sie dann mittels einer ausgeklügelten mehrschichtigen hierarchischen logischen Projektion in die Eingabeeinbettungen integriert, um die logischen Strukturen als NLP-Intelligenz in das vortrainierte Sprachmodell einzubringen.Wang et al. ( 2023e) schlugen einen neuartigen Ansatz vor, um ein Transformer-Sprachmodell durch eine Kombination aus logischer Erkennung, logischem Mapping und geschichteter logischer Projektion für dieLogikgesteuerte Einbettung von EingabenDas neue Modell kann dann entwickelt werden, um alle bestehenden Transformer-Sprachmodelle auf dieLogik-Transformatorum seine Leistung beständig zu verbessern. Die vorgeschlagenen logischen Transformer-Intelligenzen erzielen durch ein tieferes Verständnis der logischen Struktur von Texten durchweg bessere Leistungen als ihre Basis-Transformer-Modelle. Für menschliche Nutzer sind diese Aspekte oft wichtiger, um sinnvolle und interessante Dialoge durch die Koordination von Intelligenzen zwischen Dialog und Informationsbeschaffung zu ermöglichen. Im Rahmen dieses Themas werden Fortschritte und Rankings bei der Entwicklung intelligenter LLMs und ihrer Eignung für eine Vielzahl sprachbezogener Aufgaben erörtert, wobei ein tieferer Einblick in die Verarbeitung natürlicher Sprache gewährt wird.

Ein offenes Frage- und Antwortsystem (QA) folgt normalerweiseSuchen und dann lesenDas Paradigma, in demRetrieverum relevante Passagen aus einem großen Korpus zu finden und dannLesegerät (Software)Generierung von Antworten auf der Grundlage abgerufener Passagen und ursprünglicher Fragen. In Wang et al. (2023g) schlagen wir einen einfachen und neuartigen Rahmen für das gegenseitige Lernen vor, und zwar mit Hilfe eines Rahmens namensWissensselektorZwischenmodule für zu verbessernde IntelligenzenSuchen und dann lesenUm die Leistung des Modells zu verbessern, trainieren wir das Modul mit Hilfe von Reinforcement Learning. Die Kombination der feinkörnigenWissensselektoreinbringenAbrufen dann LeserParadigma, dessen Ziel es ist, eine kleine Teilmenge von Absätzen zu konstruieren, die die für die Frage relevanten Informationen enthalten. Wie in Abbildung 30 dargestellt, werden die Wissensselektor-Intelligenzen als Bestandteil unseres neuartigen Rahmens für gegenseitiges Lernen trainiert, der Wissensselektoren und Leser iterativ trainiert. Wir verfolgen einen einfachen und neuartigen Ansatz, bei dem Policy-Gradienten zur Optimierung der Wissensselektor-Intelligenz verwendet werden, wobei das Feedback des Lesers genutzt wird, um den Wissensselektor so zu trainieren, dass er eine kleine Menge an informationsreichen Passagen auswählt. Dieser Ansatz vermeidet die Brute-Force-Suche oder die manuelle Entwicklung von Heuristiken, ohne dass annotierte Abfragedokumentenpaare zur Überwachung benötigt werden. Wir zeigen, dass das iterative Training der Leser- und Wissensselektor-Intelligenz zu einer besseren Vorhersageleistung bei einer Reihe von öffentlichen Open-Domain-Q&A-Benchmarks führt.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abb. 30: Architektur eines vorgeschlagenen Rahmens für gegenseitiges Lernen für NLP-Intelligenzen Wang et al. (2023g). In jeder Epoche werden Phase 1 und Phase 2 abwechselnd ausgeführt. In Phase 1 werden die Parameter des Lesemodells beibehalten und nur die Gewichte der Wissensselektoren aktualisiert. Im Gegensatz dazu werden in Phase 2 die Parameter des Lesemodells angepasst, während die Gewichte der Wissensselektoren eingefroren bleiben.

7 Agenten-KI über Modalitäten, Domänen und Realitäten hinweg

7.1 Agent für cross-modales Verstehen

Multimodales Verständnis ist eine große Herausforderung bei der Entwicklung eines universell einsetzbaren KI-Agenten, da es an großen Datensätzen mangelt, die das Sehen, die Sprache und das Verhalten des Agenten enthalten. Generell sind die Trainingsdaten für KI-Agenten in der Regel modalitätsspezifisch. Dies führt dazu, dass die meisten modernen multimodalen Systeme Kombinationen von eingefrorenen Submodulen verwenden. Einige bemerkenswerte Beispiele sind Flamingo Alayrac et al. (2022), BLIP-2 Li et al. (2023c) und LLaVA Liu et al. (2023c), die alle ein eingefrorenes großes Sprachmodell (LLM) und einen eingefrorenen visuellen Codierer verwenden. Diese Teilmodule werden einzeln auf separaten Datensätzen trainiert, und dann wird die Anpassungsschicht trainiert, um den visuellen Codierer in den Einbettungsraum des großen Sprachmodells (LLM) zu kodieren. Um weitere Fortschritte beim cross-modalen Verständnis von KI-Agenten zu erzielen, muss die Strategie der Verwendung von eingefrorenen LLMs und visuellen Kodierern möglicherweise geändert werden. Tatsächlich zeigt das neue visuell-linguistische Modell RT-2 signifikante Leistungssteigerungen bei der Durchführung von Operationen im Bereich der Robotik, wenn der visuelle Kodierer und das Large Language Model (LLM) für robotische und visuell-linguistische Aufgaben gemeinsam angepasst werden Brohan et al. (2023).

7.2 Agent für bereichsübergreifendes Verständnis

Eine zentrale Herausforderung bei der Entwicklung eines generischen Agenten ist das einzigartige visuelle Erscheinungsbild und die unterschiedlichen Handlungsräume in verschiedenen Bereichen. Menschen sind in der Lage, Bilder und Videos aus einer Vielzahl von Quellen zu interpretieren, darunter die reale Welt, Videospiele und spezielle Bereiche wie Robotik und Gesundheitswesen, sobald sie mit den Besonderheiten dieser Bereiche vertraut sind. Bestehende große Sprachmodelle (Large Language Models, LLM) und visuelle Sprachmodelle (Visual Language Models, VLM) weisen jedoch oft erhebliche Diskrepanzen zwischen den Daten, auf denen sie trainiert wurden, und den verschiedenen Bereichen, in denen sie eingesetzt werden, auf. Insbesondere das Training von Agentenmodellen zur Vorhersage spezifischer Handlungen stellt eine große Herausforderung dar, wenn es darum geht, eine einzige Strategie zu entwickeln, mit der mehrere Kontrollsysteme über verschiedene Domänen hinweg effektiv erlernt werden können. Im Allgemeinen wird in den meisten modernen Arbeiten bei der Anwendung eines Systems in einer bestimmten Domäne mit einem vortrainierten Basismodell begonnen und dann ein separates Modell für jede spezifische Domäne feinabgestimmt. Dadurch werden keine Gemeinsamkeiten zwischen den Bereichen erfasst, und die Gesamtmenge der zu trainierenden Daten wird kleiner, als wenn Daten aus jedem Bereich verwendet werden.

7.3 Interaktive Agenten für cross-modale und cross-reality

Die Entwicklung von KI-Agenten, die in der Lage sind, Aufgaben in verschiedenen Realitäten zu verstehen und auszuführen, ist eine ständige Herausforderung, wobei in jüngster Zeit einige Erfolge bei der Erzeugung von Bildern und Szenen erzielt wurden Huang et al. (2023a). Insbesondere ist es für Agenten aufgrund der visuellen Unterschiede und der unabhängigen physikalischen Eigenschaften der Umgebungen eine Herausforderung, sowohl die reale als auch die virtuelle Realität zu verstehen. Im Kontext von Cross-Reality ist die Migration von der Simulation in die Realität ein besonders wichtiges Thema bei der Verwendung von in der Simulation trainierten Strategien zur Verarbeitung von Daten aus der realen Welt, wie wir im nächsten Abschnitt erörtern.

7.4 Übergang von der Simulation zur Realität

Techniken, mit denen in der Simulation trainierte Modelle in der realen Welt eingesetzt werden können. Verkörperte Agenten, insbesondere solche, die auf Strategien des Reinforcement Learning (RL) beruhen, werden häufig in simulierten Umgebungen trainiert. Diese Simulationen entsprechen nicht genau den Merkmalen der realen Welt (z. B. Interferenzen, Licht, Schwerkraft und andere physikalische Eigenschaften). Aufgrund dieses Unterschieds zwischen Simulation und Realität haben in der Simulation trainierte Modelle oft Schwierigkeiten, in der realen Welt gute Leistungen zu erbringen. Dieses Problem wird als "Simulations-Realitäts-Problem" bezeichnet. Es gibt verschiedene Ansätze, um dieses Problem zu lösen:

BereichsrandomisierungDomänen-Randomisierung ist eine Technik zum Trainieren von Modellen unter zufälliger Variation von Parametern (z. B. Aussehen des Objekts, Sensorrauschen und optische Eigenschaften) in simulierten Umgebungen, um Unsicherheiten und Variationen in der realen Welt zu bewältigen Tobin et al. (2017). Beim Training von auf Reinforcement Learning (RL) basierenden Greiffähigkeiten kann beispielsweise die Einführung von Zufälligkeiten in der Form eines Objekts die Strategie in die Lage versetzen, sich an Objekte mit leicht unterschiedlichen Formen anzupassen Saito et al. (2022).
BereichsanpassungDomänenanpassung oder Domänenmigration ist eine Technik, die die Lücke zwischen simulierten und realen Domänen überbrückt, indem ein Modell mit einer großen Anzahl von simulierten Bildern und einer kleinen Anzahl von realen Bildern trainiert wird. In der Praxis werden Methoden zur Konvertierung von ungepaarten Bildern, wie CycleGAN Zhu et al. (2017b), verwendet, da es schwierig ist, gepaarte Bilder für verschiedene Domänen vorzubereiten. Es gibt mehrere erweiterte Versionen des Verstärkungslernens, darunter Reinforcement Learning - CycleGAN Rao et al. (2020) und erweiterte Versionen des Imitationslernens, z. B. RetinaGAN Ho et al. (2021).
Verbesserte SimulationRealistische Simulation ist der Schlüssel zur Migration von der Simulation zur Realität. Ein Teil dieser Arbeit wird durch Systemidentifikationstechniken erreicht Zhu et al. (2017c); Allevato et al. (2020), die darauf abzielen, Simulationsparameter zur Nachahmung realer Umgebungen zu identifizieren. Darüber hinaus wäre die Verwendung von fotorealistischen Simulatoren beim bildbasierten Verstärkungslernen effektiv Martinez-Gonzalez et al. (2020); Müller et al. (2018); Shah et al. (2018); Sasabuchi et al. (2023).

Während sich die Methoden weiterentwickeln, bleibt der Übergang von der Simulation zur Realität eine zentrale Herausforderung in der Forschung über verkörperte Agenten. Theoretische und empirische Forschung ist unerlässlich, um diese Techniken weiterzuentwickeln.

8 Kontinuierliche und Selbstverbesserung der Agenten-KI

Derzeit können KI-Agenten, die auf Basismodellen basieren, aus vielen verschiedenen Datenquellen lernen, was eine flexiblere Datenquelle für das Training darstellt. Zwei wichtige Ergebnisse sind, dass (1) Benutzer- und menschenbasierte Interaktionsdaten verwendet werden können, um den Agenten weiter zu verbessern, und (2) bestehende Basismodelle und Modellartefakte verwendet werden können, um Trainingsdaten zu erzeugen. In den folgenden Abschnitten gehen wir näher auf die einzelnen Aspekte ein. Wir weisen jedoch darauf hin, dass aktuelle KI-Agenten in erster Linie mit bestehenden, vortrainierten Basismodellen verbunden sind und daher in der Regel nicht aus laufenden Interaktionen mit der Umgebung lernen. Wir glauben, dass dies eine aufregende Zukunftsrichtung ist, und vorläufige Arbeiten von Bousmalis et al. deuten darauf hin, dass selbstverbessernde Agenten für die Robotersteuerung in der Lage sind, durch Interaktionen mit der Umgebung kontinuierlich zu lernen und sich zu verbessern, ohne dass eine Überwachung erforderlich ist (Bousmalis et al. (2023)).

8.1 Menschenbezogene Interaktionsdaten

Der Kerngedanke bei der Verwendung von Interaktionsdaten auf menschlicher Basis besteht darin, eine große Anzahl von Agenten-Mensch-Interaktionen zu nutzen, um den Agenten für zukünftige Iterationen zu trainieren und zu verbessern. Es gibt mehrere Strategien, die zur Verbesserung eines Agenten durch Mensch-Mensch-Interaktion eingesetzt werden können.

Zusätzliche TrainingsdatenDie vielleicht einfachste Art, Mensch-Computer-Interaktion zu nutzen, besteht darin, die Interaktionsbeispiele selbst als Trainingsdaten für zukünftige Iterationen des Agenten zu verwenden. Dies erfordert in der Regel eine Filterstrategie, um erfolgreiche Agentenbeispiele von erfolglosen Interaktionsbeispielen zu unterscheiden. Die Filterung kann regelbasiert sein (z.B. um einen gewünschten Endzustand zu erreichen), modellbasiert (z.B. um erfolgreiche und erfolglose Interaktionen zu kategorisieren) oder manuell nach einer Post-hoc-Inspektion und/oder Modifikation der Interaktionsbeispiele ausgewählt werden.
Menschliches PräferenzlernenWährend der Interaktion mit dem Benutzer kann das Agentensystem dem Benutzer mehrere verschiedene Modellausgaben vorschlagen und ihm die Möglichkeit geben, die beste Ausgabe zu wählen. Dies wird typischerweise für Large Language Models (LLMs) wie ChatGPT und GPT-4 verwendet, bei denen der Benutzer eine Ausgabe (aus mehreren) auswählen kann, die seinen Präferenzen am besten entspricht.
Sicherheitstraining (Übung des roten Teams)Eine Red-Team-Übung im Zusammenhang mit Agenten-KI bezieht sich auf ein spezielles gegnerisches Team (entweder Mensch oder Computer), das versucht, Schwachstellen und Verwundbarkeiten in einem Agenten-KI-System auszunutzen und aufzudecken. Obwohl es sich dabei um eine gegnerische Übung handelt, werden rote Teams häufig eingesetzt, um zu verstehen, wie die KI-Sicherheitsmaßnahmen verbessert und das Auftreten schädlicher Ergebnisse verringert werden können. Das Kernprinzip besteht darin, konsistente Wege zu finden, um unerwünschte Agentenausgaben zu erzeugen, so dass Modelle auf Daten trainiert werden können, die dieses Verhalten ausdrücklich korrigieren.

8.2 Vom Basismodell erzeugte Daten

Da Wissenschaft und Industrie robuste Basismodell-Artefakte geschaffen haben, wurden Methoden entwickelt, um aus diesen Artefakten aussagekräftige Trainingsdaten zu extrahieren und zu generieren, wobei eine Vielzahl von Cueing- und Datenpaarungstechniken zum Einsatz kommen.

Abstimmung der Anweisungen des Large Language Model (LLM)Die Methode der Generierung von Anweisungen aus Large Language Models (LLMs), die den Trainingsdaten folgen, ermöglicht die Feinabstimmung kleinerer Open-Source-Modelle auf der Grundlage der Ergebnisse größerer proprietärer LLMs Wang et al. Alpaca Taori et al. (2023) und Vicuna Zheng et al. (2023) basieren zum Beispiel auf der quelloffenen LLaMA-Familie der Large Language Models (LLMs) von Touvron et al. (2023), die auf der Grundlage einer Vielzahl von Ergebnissen von ChatGPT und menschlichen Teilnehmern abgestimmt wurden. Dieser Ansatz zur Abstimmung von Anweisungen kann als eine Form der Wissensdestillation betrachtet werden, bei der die größeren Large Language Models (LLMs) als Lehrermodelle für die kleineren Schüler dienen. Wichtig ist, dass, obwohl gezeigt wurde, dass die Unterrichtsabstimmung mit großen Sprachmodellen (LLM) den Schreibstil und einige Fähigkeiten des Lehrermodells auf das Schülermodell übertragen kann, immer noch eine erhebliche Lücke zwischen der Authentizität und Kompetenz des Lehrermodells und des Schülermodells besteht Gudibande et al. (2023).
Visuell-verbale PaareEinige neuere Arbeiten haben versucht, die Menge und Vielfalt der für die visuell-linguistische Modellierung (VLM) verfügbaren Pre-Training-Daten zu erhöhen, indem sie automatisch Beschriftungen und andere Texte für visuelle Inhalte generieren. So verwendete LLaVA Liu et al. (2023c) 150.000 Beispiele für kommandobefolgendes Verhalten aus textuellen und visuellen Eingaben, die hauptsächlich vom Large Language Model (LLM) generiert wurden. Andere Arbeiten haben gezeigt, dass die Neuetikettierung von Bildern mit Hilfe von visuellen Sprachmodellen (VLMs) die Qualität der Trainingsdaten und der anschließenden Bilderzeugungsmodelle verbessern kann (Segalis et al. Im Bereich des Videoverstehens hat sich gezeigt, dass die Neuetikettierung von Videos mit Hilfe von visuellen Sprachmodellen (VLM) und großen Sprachmodellen (LLM) die Leistung und Qualität nachfolgender visueller Sprachmodelle (VLM) verbessert, die auf neuetikettierten Videos trainiert wurden Wang et al.

9 Agentendatensätze und Bestenlisten

Um die Forschung in diesem Bereich zu beschleunigen, schlagen wir zwei Benchmarks für Multiagentenspiele bzw. agentenbasierte visuelle Sprachaufgaben vor. Wir werden zwei neue Datensätze - "CuisineWorld" und "VideoAnalytica" - sowie eine Reihe von Basismodellen veröffentlichen. -Neben einer Reihe von Basismodellen werden die Teilnehmer ermutigt, neue Modelle und Systeme zu erforschen und ihre Ergebnisse in das Testset unseres Leaderboards einzureichen.

9.1 Der "CuisineWorld"-Datensatz für Multi-Agenten-Spiele

CuisineWorld ist ein textbasiertes Spiel ähnlich wie Overcooked! Es bietet eine Plattform für KI-gesteuerte Agenten, die zusammenarbeiten und zusammen spielen können. Dieser Datensatz wird die kollaborative Effizienz von Multi-Agenten-Systemen testen und einen Einblick in die Fähigkeit des Large Language Model (LLM) und anderer Systeme geben, in dynamischen Szenarien zusammenzuarbeiten. Insbesondere wird sich der Datensatz darauf konzentrieren, wie Agenten Ziele verstehen und wie Agenten sich untereinander koordinieren. Dieser Datensatz unterstützt zwei Modi: einen zentralisierten Planermodus und einen dezentralisierten Modus. Die Teilnehmer können sich für einen Spielmodus entscheiden und ihre Ergebnisse an unsere Rangliste übermitteln.

9.1.1 Benchmarks

Für unseren Wettbewerb werden wir einen Benchmark veröffentlichen, den CuisineWorld-Benchmark, der aus einer textuellen Schnittstelle, die eine erweiterbare Aufgabendefinitionsdatei enthält, und einer Schnittstelle für Multi-Agenten-Interaktion und Mensch-Computer-Interaktion besteht. Wir stellen Spiel-Interaktionsaufgaben vor, deren Ziel es ist, relevante und geeignete Multi-Agenten-Kollaborationsstrategien zu generieren, die die Effizienz der Zusammenarbeit maximieren. Wir bewerten die Kollaborationseffizienz anhand der vorgeschlagenen Bewertungsmetrik: CoS.

Der "CuisineWorld"-Datensatz wurde von Microsoft, UCLA und der Stanford University gesammelt. Ziel des Wettbewerbs ist es, zu erforschen, wie unterschiedliche, bestehende und neuartige Interaktionstechniken, die auf dem zugrunde liegenden Large Language Model (LLM) basieren, auf diesem Benchmark funktionieren, und eine robuste Grundlage für die Aufgaben einer Multi-Agenten-Spielinfrastruktur zu schaffen.

Der Datensatz von CuisineWorld umfasst:

Eine genau definierte Reihe von Aufgaben der Zusammenarbeit zwischen mehreren Agenten.
Ein API-System zur Erleichterung von Agenteninteraktionen.
Ein automatisches Bewertungssystem.

(Der Link zum Herunterladen des Datensatzes wird in Kürze zur Verfügung gestellt und dieser Artikel wird aktualisiert, um ihn hier aufzunehmen).

9.1.2 Aufgaben

Wir stellen einen Datensatz und zugehörige Benchmarks mit dem Namen Microsoft MindAgent zur Verfügung und geben einen Datensatz "CuisineWorld" für die Forschungsgemeinschaft frei.
Wir werden Benchmarks zur Bewertung und Einstufung der eingereichten MindAgent-Algorithmen bereitstellen. Wir werden auch Basisergebnisse bereitstellen, die mit gängiger Infrastruktur erzeugt wurden.

9.1.3 Indikatoren und Beurteilungen

Die Qualität der Multi-Agenten-Kollaborationseffizienz wird durch die neue automatische Metrik "cos" (aus MindAgent Gong et al. (2023a)) bestimmt. Die endgültige Punktzahl für unsere Metrik wird als Durchschnitt der vom Multiagentensystem über alle Aufgaben hinweg bewerteten Metriken zur Kollaborationseffizienz berechnet. Menschliche Bewerter werden gebeten, einzelne Antworten zu bewerten und subjektive Urteile über das Engagement, den Umfang und die Gesamtqualität der Interaktionen zwischen Benutzer und Agent abzugeben.

9.1.4 Bewertung

Automatisierte BewertungWir planen, das Leaderboard ab einem bestimmten Datum (TBD) zu veröffentlichen. Wir planen, mit der Veröffentlichung des Leaderboards zum Veröffentlichungsdatum (TBD) zu beginnen. Die registrierten Teilnehmer werden aufgefordert, ihre Ergebnisse zu Aufgaben im Zusammenhang mit dem Datensatz "CuisineWorld" (dem Datensatz, den wir für das Leaderboard öffentlich freigeben) einzureichen. Die Einreichung der Ergebnisse wird am Enddatum (TBD) abgeschlossen sein. Jedes Team muss seine Ergebnisse für den Testsatz einreichen, um die "cos"-Metrik automatisch zu bewerten.
Manuelle Bewertung in unseren Tabellen. Die Teilnehmer am Leaderboard müssen eine von einem lokalen Evaluierungsskript generierte Einreichungsdatei bereitstellen. Wir werden das evalAI-System verwenden, um die Einreichungsdatei zu überprüfen, und haben die Möglichkeit, den Code für die besten Teilnehmer der Herausforderung erneut auszuführen. Daher müssen die Teams ihren Code zusammen mit einer Selbstbeschreibung einreichen, in der sie beschreiben, wie sie ihren Code ausgeführt haben. Die manuelle Bewertung wird vom Organisationsteam durchgeführt.
Gewinner bekannt gegeben. Wir werden die Gewinner bekannt geben und die endgültigen Bewertungen der Beiträge in unserer Rangliste veröffentlichen.

9.2 Audio-Video-Sprachdatensatz vor dem Training.

Wir stellen VideoAnalytica vor: einen neuen Benchmark für die Analyse von Videopräsentationen im Hinblick auf das Verständnis. VideoAnalytica konzentriert sich auf die Verwendung von Videopräsentationen als Hilfsmittel für ein besseres Verständnis der komplexen, hochrangigen Argumentation in langen Lehrvideos. Ziel ist es, die kognitiven Argumentationsfähigkeiten von Videosprachmodellen zu bewerten und sie über bloße Erkennungsaufgaben und einfaches Verstehen hinaus zu einem komplexeren und nuancierteren Verständnis von Videos zu führen. Der Schwerpunkt von VideoAnalytica liegt auf der Integration verschiedener Modalitäten (z. B. Audio, Video und Sprache) und der Fähigkeit der Modelle, domänenspezifisches Wissen anzuwenden, um die im Video dargestellten Informationen zu verstehen und zu interpretieren. VideoAnalytica befasst sich insbesondere mit zwei Hauptaufgaben:

1.
Abrufen von Videotext: Bei dieser Aufgabe geht es darum, einen relevanten Text aus einem Lehrvideo zu finden. Die Herausforderung besteht darin, zwischen relevanten und irrelevanten Informationen zu unterscheiden, was ein tiefgreifendes Verständnis des Videoinhalts und eine Analyse der Präsentation erfordert, um die richtige Anfrage zu finden. Um die Komplexität dieser Aufgaben weiter zu erhöhen, führen wir harte Negativbeispiele in den Datensatz ein, die vom Large Language Model (LLM) generiert werden. Wir validieren die generierten Negativbeispiele manuell und entfernen Instanzen, die die Aufgabe ungültig und unfair machen (z. B. negative Beispiele sind gültig).
2.
Video-unterstützte informative Quizze: Bei dieser Aufgabe muss das Modell Fragen auf der Grundlage von Informationen aus dem Video beantworten. Der Schwerpunkt liegt auf komplexen Fragen, die analytisches Denken und ein gründliches Verständnis der Videodarstellung erfordern.

Um die Entwicklung eines audio-video-verbalen Agenten für die Analyse des Videoverstehens zu erleichtern, haben wir eine Benchmark-Rangliste für zwei Aufgaben in VideoAnalytica eingeführt.

Die Teilnehmer am Leaderboard müssen ihre Lösungen zur Bewertung einreichen. Die Bewertung basiert auf der Leistung des Modells bei zwei Aufgaben und die Ergebnisse werden auf dem Leaderboard angezeigt. Die Teilnehmer müssen ihren Code sowie eine detaillierte Erklärung ihres Ansatzes und ihrer Methodik einreichen.
Ethische Erwägungen: Der Schwerpunkt der Rankings liegt auf dem Verstehen und Interpretieren von Videoinhalten, die zur Überwachung oder für andere in die Privatsphäre eingreifende Anwendungen genutzt werden können. Daher ist es von entscheidender Bedeutung, die ethischen Implikationen und den möglichen Missbrauch der Technologie zu berücksichtigen. Wir ermutigen die Teilnehmer, diese Aspekte in ihren Beiträgen zu berücksichtigen und den ethischen Einsatz von KI zu fördern.

10 Erklärung zu den weiterreichenden Auswirkungen

Diese Publikation und unser zugehöriges Forum ^6^^^6^https://multimodalagentai.github.io sollen ein Katalysator für innovative Forschung sein, die Zusammenarbeit fördern und die nächste Welle der KI-Einführung vorantreiben. Indem wir uns auf multimodale Intelligenzen konzentrieren, betonen wir die künftige Richtung der Mensch-Computer-Interaktion, der Leaderboards und der Lösungen. Wir stellen drei Bereiche vor, in denen wir einen wichtigen Beitrag für die breitere Gemeinschaft leisten.

In erster Linie hoffen wir, dass unser Forum KI-Forscher dazu anregen wird, Lösungen für reale Probleme wie Spiele, Robotik, Gesundheitswesen und das Verstehen langer Videos zu entwickeln. Insbesondere die Entwicklung multimodaler Intelligenzen in Spielen könnte die Spieleindustrie verändern, indem sie zu immersiveren und personalisierten Spielerlebnissen führt. In der Robotik könnte die Entwicklung anpassungsfähiger Robotersysteme die Industrie von der Fertigung bis zur Landwirtschaft revolutionieren und möglicherweise den Arbeitskräftemangel beheben und die Effizienz steigern. Im Gesundheitswesen könnte der Einsatz von Large Language Models (LLMs) und Visual Language Models (VLMs) als diagnostische Intelligenz oder Assistenten für die Patientenversorgung zu genaueren Diagnosen, einer besseren Patientenversorgung und einem besseren Zugang zu Gesundheitsdiensten führen, insbesondere in unterversorgten Gebieten. Darüber hinaus kann die Fähigkeit dieser Modelle, lange Videos zu interpretieren, eine breite Palette von Anwendungen bieten, von der Verbesserung des Online-Lernens bis hin zur Verbesserung der technischen Unterstützungsdienste. Insgesamt werden die in unseren Foren behandelten Themen erhebliche nachgelagerte Auswirkungen auf die Industrie und die Menschen in aller Welt haben.

Zweitens hoffen wir, dass unser Forum eine wertvolle Ressource für KI-Praktiker und -Forscher sein wird, die als Plattform für die Erkundung und ein tieferes Verständnis der verschiedenen komplexen Führungsebenen dient, die durch die Implementierung von KI-Intelligenzen in einer Vielzahl von Umgebungen und Kontexten entstehen. Dazu gehört zum Beispiel das Verständnis der spezifischen Grenzen und potenziellen Gefahren von agentenbasierten KI-Systemen, die für bestimmte Bereiche wie die Gesundheitsdiagnostik entwickelt wurden. In diesem Bereich können Probleme wie gefährliche Halluzinationen im KI-Verhalten erhebliche Risiken mit sich bringen, was die entscheidende Bedeutung einer sorgfältigen Entwicklung und Prüfung unterstreicht. Bei der Betrachtung von KI-Intelligenzen, die für die Spieleindustrie entwickelt werden, sind diese spezifischen Einstufungen jedoch möglicherweise weniger relevant oder offensichtlich. In diesen Unterhaltungsbereichen legen die Entwickler möglicherweise andere Prioritäten, wie z. B. die Notwendigkeit, dass die KI eine offenere Generierung vornimmt und Kreativität zeigt und sich dynamisch an unvorhersehbare Spielszenarien und Spielerinteraktionen anpasst. Durch die Teilnahme am Forum erhalten die Teilnehmer einen Einblick in die Art und Weise, wie diese unterschiedlichen Umgebungen den Schwerpunkt und die Richtung der KI-Entwicklung diktieren, und wie KI-Lösungen am besten angepasst werden können, um diesen unterschiedlichen Anforderungen gerecht zu werden und relevante Ranglisten zu überwinden.

Drittens sollen die verschiedenen Elemente unserer Veranstaltung, darunter Fachvorträge, informative Poster und die Gewinner unserer beiden Bestenlisten, einen fundierten, aber dennoch prägnanten Überblick über die neuesten und wichtigsten Trends, Forschungsrichtungen und innovativen Konzepte auf dem Gebiet der multimodalen Intelligenzen geben. Diese Präsentationen fassen die wichtigsten Erkenntnisse und Entwicklungen zusammen und zeigen neue Systeme, Ideen und Technologien im Bereich der KI für multimodale Intelligenzen auf. Diese Wissenssammlung ist nicht nur für unsere Forumsteilnehmer von Nutzen, die ihr Verständnis und ihre Fachkenntnisse auf diesem Gebiet vertiefen möchten, sondern dient auch als dynamische und reichhaltige Ressourcensammlung. Die Besucher unserer Forum-Website können diese Informationsquelle nutzen, um die neuesten Fortschritte und innovativen Ideen zu entdecken und zu verstehen, die die Zukunft der KI für multimodale Intelligenzen bestimmen werden. Wir bemühen uns, eine nützliche Wissensbasis sowohl für Neulinge als auch für Veteranen auf diesem Gebiet zu sein. Wir hoffen, dass sowohl die Teilnehmer als auch die Online-Besucher durch die Beschäftigung mit diesen Ressourcen etwas über die transformativen Veränderungen und neuartigen Ansätze erfahren, die die aufregende Landschaft der KI für multimodale Intelligenzen prägen.

11 Ethische Erwägungen

Multimodale KI-Systeme haben viele Anwendungsmöglichkeiten. Neben der interaktiven KI können grundlegende multimodale Modelle die Generierung von Inhalten für Roboter und KI-Intelligenzen vorantreiben und Produktivitätsanwendungen unterstützen, die bei der Wiedergabe, Umschreibung, Bewegungsvorhersage oder der Zusammenstellung von 3D- oder 2D-Szenen helfen. Grundlegende Fortschritte in der intelligenten Körper-KI helfen, diese Ziele zu erreichen, und viele werden von einem besseren Verständnis der Modellierung von Körper und Empathie in der simulierten Realität oder in der realen Welt profitieren. Vermutlich werden viele dieser Anwendungen positive Auswirkungen haben.

Diese Technologie kann jedoch auch von bösen Akteuren ausgenutzt werden. Intelligente KI-Systeme, die Inhalte generieren, können dazu verwendet werden, Menschen zu manipulieren oder zu täuschen. Daher ist es wichtig, dass diese Technologie nach verantwortungsvollen KI-Richtlinien entwickelt wird. Beispielsweise sollten die Nutzer klar darüber informiert werden, dass Inhalte von KI-Systemen generiert werden, und die Nutzer sollten die Kontrolle über die Anpassung solcher Systeme haben. Intelligente Körper-KI hat das Potenzial, neue Wege zur Erkennung manipulativer Inhalte zu entwickeln - zum Teil, weil sie über die reichhaltigen halluzinatorischen Eigenschaften eines großen Basismodells verfügt - und so zur Lösung eines alternativen Problems der realen Welt beizutragen.

Zum Beispiel 1) ist es von entscheidender Bedeutung, dass Large Language Modelling (LLM) und Visual Language Modelling (VLM) Intelligenzen in Gesundheitsthemen ethisch korrekt eingesetzt werden, insbesondere in sensiblen Bereichen wie dem Gesundheitswesen. KI-Intelligenzen, die auf voreingenommene Daten trainiert wurden, können gesundheitliche Ungleichheiten verschärfen, indem sie gefährdeten Bevölkerungsgruppen falsche Diagnosen stellen. Darüber hinaus wirft der Umgang mit sensiblen Patientendaten durch KI-Intelligenzen ernsthafte Bedenken hinsichtlich des Datenschutzes und der Vertraulichkeit auf.2) In der Spieleindustrie könnten KI-Intelligenzen die Rolle der Entwickler verändern, indem sie ihren Schwerpunkt von der Erstellung von Skripten für Nicht-Spieler-Charaktere auf die Verbesserung des Lernprozesses von Intelligenzen verlagern. In ähnlicher Weise könnten adaptive Robotersysteme die Rolle der Fertigung neu definieren, indem sie neue Qualifikationen erfordern, anstatt menschliche Arbeitskräfte zu ersetzen. Verantwortungsbewusste Reaktionen auf diese Veränderungen sind unerlässlich, um mögliche sozioökonomische Störungen zu minimieren.

Darüber hinaus liegt der Schwerpunkt der intelligenten Körper-KI auf dem Erlernen kollaborativer Strategien in der Simulation, was aufgrund von Verteilungsverzerrungen riskant ist, wenn die Strategien direkt auf die reale Welt angewendet werden. Es sollten robuste Test- und kontinuierliche Sicherheitsüberwachungsmechanismen eingerichtet werden, um das Risiko eines unvorhersehbaren Verhaltens in realen Szenarien zu minimieren. Unser "VideoAnalytica"-Datensatz wurde aus dem Internet gesammelt, und da es sich nicht um eine vollständig repräsentative Quelle handelt, haben wir die ethischen Prüfungen und rechtlichen Verfahren von Microsoft und der Universität Washington abgeschlossen. Dennoch müssen wir uns über mögliche Verzerrungen im Korpus im Klaren sein. Datenverteilungen können auf verschiedene Weise charakterisiert werden. In diesem Workshop haben wir die Unterschiede zwischen der Verteilung des Intelligenzniveaus in unserem Datensatz und anderen bestehenden Datensätzen erfasst. Es gibt jedoch noch viel mehr, was in einen Datensatz oder Workshop aufgenommen werden kann. Wir glauben, dass es einen Bedarf an weiteren Methoden oder Diskussionen gibt, die für die eigentliche Aufgabe oder das Thema relevant sind, indem diese Daten oder Systeme verfügbar gemacht werden.

Wir werden einen Teil unseres Projekts der Erörterung dieser ethischen Fragen, der Erkundung möglicher Abhilfestrategien und dem Einsatz verantwortungsvoller multimodaler KI-Intelligenzen widmen. Wir hoffen, dass wir mit diesem Papier dazu beitragen können, dass mehr Forscher gemeinsam an der Beantwortung dieser Fragen arbeiten.

12 Erklärung zur Diversität

Indem wir die Anpassungsfähigkeit intelligenter KI-Körpermodelle in verschiedenen Bereichen untersuchen, können wir natürlich eine Vielzahl von Rankings, Perspektiven und Lösungen einbeziehen. In diesem Sinne zielt unser Projekt darauf ab, eine vielfältige Gemeinschaft aufzubauen, indem eine Vielzahl von Themen im Bereich der multimodalen und intelligenten Körper-KI erforscht wird.

Unter Berücksichtigung dieser Grundsätze konzentriert sich dieses Projekt auf fortschrittliche multimodale Systeme, die in physischen und virtuellen Umgebungen effektiv interagieren und eine wirksame Interaktion mit Menschen ermöglichen. Daher wollen wir Experten und Praktiker aus einem breiten Spektrum von technischen Spezialisierungen, Kulturen, Ländern und akademischen Bereichen ansprechen, um wichtige Themen zu diskutieren, einschließlich, aber nicht beschränkt auf:

Anwendung des Basismodells: Entwicklung von Intelligenzen mit integrierten Modalitäten (Audio-, Bild-, Text-, Sensoreingaben), um ihre Erkennung und Reaktion auf verschiedene Anwendungen zu verbessern.
Generische End-to-End-Systeme: Entwicklung von End-to-End-Modellen, die anhand umfangreicher Daten trainiert werden, mit dem Ziel, generische und anpassungsfähige KI-Lösungen zu schaffen.
Prinzip der modalen Erdung: Integration von Informationen aus verschiedenen Modalitäten zur Verbesserung der Kohärenz und Effizienz der Datenverarbeitung.
Intuitive Mensch-Computer-Schnittstellen: Entwicklung wirksamer und sinnvoller Interaktionen zwischen Menschen und Intelligenzen.
Zähmung von großen Sprachmodellen (LLM)/visuellen Sprachmodellen (VLM): Erforschung neuer Wege zur Lösung gängiger Probleme bei großen Modellen, wie z. B. Täuschungen und Verzerrungen in der Ausgabe.

Wir wollen unser kollektives Verständnis für das Potenzial und die Grenzen von KI für Intelligenzen erweitern, indem wir unsere einzigartigen und unterschiedlichen Perspektiven nutzen. Wir sind der festen Überzeugung, dass dieser Ansatz nicht nur die individuellen Perspektiven bereichert, sondern auch das kollektive Wissen der Gemeinschaft erweitert und eine umfassendere Gesamtsicht auf das breitere Feld der multimodalen KI-Intelligenzen fördert.

Anhang AGPT-4V Agententipp Details

Wenn nicht anders angegeben, verwenden wir die Standard-Eingabeaufforderungen des GPT-4V-Systems. Wir zeigen im Detail den Prozess der Eingabeaufforderung von GPT-4V für ein Minecraft-Spiel und wie wir die Antworten von GPT-4V generiert haben in Abbildung 31.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 31: Wir stellen Codeschnipsel bereit, um den kompletten Hinting-Prozess des Aufrufs von GPT-4V für Minecraft-Videos zu zeigen. Zunächst kodieren wir die Frames des Videos und rufen dann den GPT-4V-Endpunkt auf. Die Antwort des Modells wird am unteren Rand des Bildschirms angezeigt.

Anhang BGPT-4V für Bleeding Edge

Bleeding Edge ist ein teambasiertes Kampfspiel in der dritten Person, bei dem die Spieler versuchen, Zielpunkte zu erobern oder mehr Ressourcen zu sammeln als das gegnerische Team. In Abbildung 32 zeigen wir Beispiele für Inputs und Outputs, wenn GPT-4V für das Bleeding Edge Gameplay eingesetzt wird. Im Vergleich zu Minecraft haben wir festgestellt, dass GPT-4V ein weniger gründliches Verständnis von visuellen Inhalten und Spielregeln hat. Dies könnte auf (1) die große Menge an Minecraft-Daten in den Trainingsdaten von GPT-4V und (2) die höhere visuelle Komplexität von Bleeding Edge im Vergleich zu Minecraft zurückzuführen sein.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 32: GPT-4V ist in der Lage, sinnvolle Inhalte für Spiele wie Bleeding Edge zu generieren, die eine Third-Person-Perspektive und visuell komplexe Szenen haben. Um eine große Anzahl von Frames (48) in GPT-4V einzuspeisen, haben wir diese Frames als Raster eingegeben und jedem Frame eine Frame-Nummer überlagert (siehe oben).

Anhang CGPT-4V für Microsoft Flight Simulator

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 33: GPT-4V kann aussagekräftige Inhaltsbeschreibungen für Microsoft Flight Simulator Spiele generieren. Während der Spieler im Flugsimulator das Flugzeug fliegt, kann der GPT-4V-Agent eine High-Level-Beschreibung des Geschehens liefern, die durch die Cockpit-Ansicht und die Außenansicht des Flugzeugs dargestellt wird, wobei er die verschiedenen Flugkontrollen und Instrumente steuert, um die richtige Fluggeschwindigkeit und Flughöhe zu halten, während er durch den virtuellen Luftraum navigiert. Um ein großes Video einzugeben, wählen wir eine Anzahl von Keyframes (6 Frames), die wir an GPT-4V senden. Wir geben jedes Keyframe einzeln ein, ohne ein Raster zu verwenden (wie in der Abbildung oben gezeigt).

Wie in Abbildung 33 dargestellt, liefert der GPT-4V-basierte Agent eine detaillierte Beschreibung der Aktionen des Spielers im Microsoft Flight Simulator. Er beschreibt, wie der Spieler durch die Cockpitansicht und die Außenansicht des Flugzeugs das Flugzeug fliegt, die verschiedenen Flugsteuerungen und Instrumente steuert, um die richtige Fluggeschwindigkeit und Flughöhe beizubehalten, während er durch den virtuellen Luftraum navigiert.

Anhang DGPT-4V für Assassin's Creed: Odyssey

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 34: GPT-4V ist in der Lage, aussagekräftige Inhaltsbeschreibungen für das Spiel Assassin's Creed: Odyssey zu erstellen. GPT-4V-basierte Agenten können auch High-Level-Handlungsbeschreibungen liefern, z.B. "Charaktere im Bild [sind] in nächtlichen Schlachten in historischen Kampagnen aktiv, schwingen Speere und nutzen Spezialfähigkeiten wie "Bull Rush", kämpfen gegen mehrere Feinde mit Level-Indikatoren, während sie ihre Lebens- und Fähigkeitswerte in einem Third-Person-Actionspiel verwalten Verwalten von Lebens- und Fähigkeitswerten in einem Third-Person-Action-Rollenspiel". Um ein großes Video einzugeben, wählen wir eine Anzahl von Keyframes (8 Frames) aus, die wir an GPT-4V senden. Wir geben jedes Keyframe einzeln ein, ohne ein Raster zu verwenden (wie im Bild oben gezeigt).

Wie in Abbildung 34 zu sehen ist, liefert der GPT-4V-Agent eine detaillierte Beschreibung der Handlung der Figur im Bild, d. h. die Figur nimmt an nächtlichen Kämpfen in einer historischen Kampagne teil, schwingt einen Speer und nutzt Spezialfähigkeiten wie "Bullensturm", kämpft gegen mehrere Gegner mit Level-Anzeigen und verwaltet ihre Lebens- und Fähigkeitswerte in einem Third-Person-Action-Rollenspiel. GPT-4V zeigt den Spieler auch in einem groß angelegten Nahkampfszenario, in dem er einen Charakter mit roten Akzenten auf seiner Rüstung steuert und aufgefordert wird, die Fähigkeit "Bullensturm" auf der Grundlage von Anweisungen auf dem Bildschirm einzusetzen. Die Umgebung ist dunkel und voller Flammen, was auf ein Schlachtfeld hindeutet, und die Figur des Spielers steht mehreren Gegnern gegenüber, die über Stufenanzeigen und Blutbalken verfügen. Die Aktion ist Teil eines Tutorials oder einer Kampfsequenz, in der der Spieler Kampffähigkeiten erlernt und ausführt.

Anhang EGPT-4V für Gears of War 4

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 35: GPT-4V ist in der Lage, aussagekräftige Inhaltsbeschreibungen für das Spiel Gears of War 4 zu generieren. Der GPT-4V-Agent liefert eine High-Level-Beschreibung der Handlung, d. h. der Spieler nimmt an einem Kampfszenario in einer visuell reichhaltigen futuristischen Umgebung teil, die an einen Industrie- oder Militärkomplex erinnert. Die gepanzerte und mit Schusswaffen ausgerüstete Figur bewegt sich durch das Gebiet und nutzt Deckung und Zielsysteme, um den Feind zu bekämpfen. Zu den erfassten Aktionen gehören das Zielen aus der Deckung heraus, das Schießen auf Feinde, das Erleiden von Schaden (was durch visuelle Hinweise auf dem Bildschirm angezeigt wird) und der Nahkampf. Die Umgebung ist durch eine nächtliche Beleuchtung gekennzeichnet, wobei künstliche Lichtquellen interessante Bereiche oder Aktionen hervorheben. In bestimmten Momenten erscheint die Figur des Spielers als transparente Silhouette, die eine besondere Fähigkeit oder einen vorübergehenden Zustand wie Unbesiegbarkeit oder Tarnung anzeigen kann. Um ein großes Video einzugeben, wählen wir eine Anzahl von Keyframes (10 Frames) aus, die wir an GPT-4V senden. Wir geben jedes Keyframe einzeln ein, ohne ein Raster zu verwenden (wie oben gezeigt).

Wie in FIG. 35 dargestellt, kann der GPT-4V-Agent auf der Grundlage der bereitgestellten 10-Bild-Videosequenz eine allgemeine Beschreibung der Bewegungen des Spielers im Videospiel liefern:

"Der Spieler steuert seine Spielfigur durch eine nächtliche Industrieumgebung und versteckt sich strategisch hinter verschiedenen Objekten wie Kisten und Wänden. Die Spielfigur ist mit Waffen bewaffnet und kämpft gegen feindliche Einheiten. Der Spieler verwendet Schusswaffen und kann auch Nahkampfangriffe einsetzen, wie in Close Quarters Combat gezeigt. Er scheint seine Munition und seine Lebenspunkte zu verwalten, was durch visuelle Hinweise auf dem Bildschirm angezeigt wird (z. B. rot blinkende Indikatoren, die in der Regel anzeigen, dass die Figur Schaden nimmt).

Darüber hinaus scheint sich der Spieler taktisch zu bewegen und zwischen verschiedenen Deckungspositionen zu wechseln, um vorzurücken oder sich gegen Feinde zu verteidigen. An einem bestimmten Punkt scheinen Schilde aktiviert zu sein, was darauf hindeutet, dass der Spieler auf eintreffenden Beschuss mit dem Einsatz von Verteidigungsmitteln reagiert. Die Charaktere scheinen auch ihre Waffen nachzuladen, was auf ein Element der Ressourcenverwaltung während des Kampfes hindeutet. Blut und Aufpralleffekte weisen auf erfolgreiche Treffer bei Feinden hin.

Die Figur des Spielers arbeitet mit Verbündeten zusammen, da andere Figuren in der Nähe zu sehen sind, die in ähnliche Kampfhandlungen verwickelt sind. Es gibt interaktive Elemente in der Umgebung, wie z. B. explodierende Fässer, die der Spieler zu seinem Vorteil nutzen kann.

Die Szenarien zeigen rasante Action mit dem Schwerpunkt auf strategischer Bewegung, Schießen und Situationsbewusstsein, um Gegner zu besiegen und möglicherweise bestimmte Ziele im Spiel zu erreichen."

Anhang FGPT-4V für Der Sternenhimmel

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Abbildung 36: GPT-4Vs Fähigkeit, aussagekräftige Inhaltsbeschreibungen für das X-Box-Konsolenspiel Starsky and Hutch zu generieren. Der GPT-4V-Agent liefert High-Level-Beschreibungen der Handlung in diesem Weltraum-Erkundungsspiel. Um ein großes Video einzugeben, wählten wir eine Anzahl von Keyframes (10 Frames) aus, die wir an GPT-4V sendeten. Wir gaben jedes Keyframe einzeln ein, ohne ein Raster zu verwenden (wie oben gezeigt).

Wie in Abbildung 36 dargestellt, liefert der GPT-4V-Agent auf der Grundlage der für Stars bereitgestellten Videosequenz mit 10 Bildern eine allgemeine Darstellung der Aktionen des Spielers im Videospiel. Laut GPT-4V: "Das Bild zeigt eine Abfolge von Ereignissen im Spiel Stars, die die Interaktionen des Spielers in der Bergbauumgebung zeigen. Es folgt eine Beschreibung der Sequenz:

Der Spieler steht in einer schwach beleuchteten unterirdischen Höhle mit Stalaktiten neben einer anderen Figur in weltraumähnlicher Ausrüstung. Sie stehen vor einem hervorgehobenen Wegpunkt, der ein Ziel oder einen Ort von Interesse anzeigt.
Der Spieler geht durch das Innere einer Industrieanlage, möglicherweise einer Bergbaustation, und nähert sich einem anderen Charakter. Das Heads-Up-Display (HUD) zeigt eine Dialogzeile für "Supervisor Lin" an, was auf eine Interaktion mit einem NPC (Nicht-Spieler-Charakter) und möglicherweise auf eine Missionsbesprechung oder ein Update hinweist.
Der Spieler scheint dem NPC Supervisor Lin durch die Höhlen zu folgen, was auf den geführten Teil des Spiels hinweist, in dem NPCs den Spieler zu bestimmten Orten oder Quests führen.
Der Dialog mit dem Verantwortlichen für den Wald deutet auf einen Entscheidungspunkt oder ein Quest-Update hin, das die Spieler zu neuen Zielen im Zusammenhang mit der Ressource "Große Ader" führen kann.
Der Spieler trifft erneut auf die Aufseherin Lin, die ihm Anweisungen oder Informationen über Metallvorkommen gibt und damit den Beginn einer Bergbaumission oder die Erkundung eines neuen Gebiets ankündigt.
In diesem Rahmen scheint der Spieler eine Maschine zu beobachten oder mit ihr zu interagieren, und eine andere Figur, Isabel, zeigt Aktionen oder Dialoge an, die mit dem Betrieb des Geräts oder der technischen Arbeit zusammenhängen.
Der Spieler blickt nach unten und sieht ein zerklüftetes Gelände und zwei leuchtende Objekte, die zu sammelnde Ressourcen oder interessante Punkte für die Mission darstellen können.
Der Spieler untersucht eine bestimmte Ressource, die auf dem Head-up-Display als "Beryllium-Lagerstätte" gekennzeichnet ist und anzeigt, dass Ressourcen gesammelt oder abgebaut werden.
Der Spieler geht durch die Höhle und sucht möglicherweise nach weiteren Ressourcen oder navigiert zum nächsten Ziel, wie zuvor von einer anderen Figur in Weltraumausrüstung gezeigt.
Der Spieler befindet sich in einem dunkleren Bereich der Höhle mit zwei leuchtenden Markierungen, die den zu erreichenden Weg oder Zielpunkt anzeigen.

Während der gesamten Darstellung scheint der Spieler an einer Mission beteiligt zu sein, die Erkundung, NSC-Interaktion, Ressourcensammeln und möglicherweise das Bedienen von Maschinen in einer Bergbauumgebung beinhaltet. Heads-up-Display-Elemente wie Wegpunkte, Dialogtexte und Missions-Updates liefern den Kontext für die Aktionen des Spielers und seine Spielziele."

Profil des Autors

Zane Durante

Doktorand, Informatik, Universität Stanford
E-Mail: durante@stanford.edu
Website: https://zanedurante.github.io/
Zane Durante ist Doktorand im Stanford Vision Lab und wird von Dr. Fei-Fei Li betreut. Zu seinen Forschungsinteressen gehören das Verstehen von Videos, die Verknüpfung von Computer Vision mit natürlicher Sprache und Anwendungen von künstlicher Intelligenz in der Krankenhauspflege. Er leitet eine laufende Zusammenarbeit zwischen der Stanford School of Medicine und dem Stanford Vision Lab zur Entwicklung eines Datensatzes mit natürlichsprachlichen Beschreibungen von Videoclips von Krankenhausszenen. Seine Doktorarbeit wurde durch ein Graduate Research Fellowship der National Science Foundation finanziert.

Qiuyuan Huang

Leitende Forscherin bei Microsoft Research, Redmond, WA, USA.
E-Mail: qihua@microsoft.com
Website: https://www.microsoft.com/en-us/research/people/qihua/
Qiuyuan Huang ist Principal Investigator in der Deep Learning-Gruppe bei Microsoft Research (MSR) in Redmond, WA. Ihre aktuellen Forschungsinteressen konzentrieren sich auf Deep Learning, Multimodalität und die Verarbeitung natürlicher Sprache, insbesondere Agenten-KI für Spiele, Robotik und das Gesundheitswesen, wissensbasierte schlussfolgernde Intelligenz für interaktive KI, neuronale symbolische Berechnung für Inferenzen und groß angelegte Basismodelle für NLP und Multimodalität.

Naoki Wake

Ein Forscher bei Microsoft in Redmond, Wash.
E-Mail: naoki.wake@microsoft.com
Website: https://www.microsoft.com/en-us/research/people/nawake/
Naoki Wake ist ein Forscher in der Applied Robotics Research Group bei Microsoft. Seine aktuelle Forschung umfasst die Entwicklung multimodaler Wahrnehmungssysteme und kollaborativer Sprachgestiksysteme für Roboter. Seine frühere Forschung umfasst auditive Neurowissenschaften, Neurorehabilitation und Sprachverarbeitung. 2014 erhielt Naoki Wake seinen B.S. in Engineering von der Universität Tokio und 2019 seinen Ph.D. in Information Science and Technology.

Ran Gong

Doktorand der Computerwissenschaften an der UCLA.
E-Mail: nikepupu@ucla.edu
Website: https://nikepupu.github.io
Ran Gong ist Doktorand im VCLA-Labor an der UCLA. Sein Forschungsgebiet liegt an der Schnittstelle von Robotik, Computer Vision, Computergrafik und maschinellem Lernen. Seine Forschung konzentriert sich auf verkörperte Simulation und Interaktion mit dem Ziel, intelligente Verhaltensweisen zu schaffen, die verschiedene Aufgaben in unterschiedlichen Umgebungen lösen können und die Fähigkeit haben, mit Menschen zusammenzuarbeiten. Er erwarb einen Bachelor of Science in Informatik und Ingenieurwesen an der UCLA.

Jae Sung Park

Doktorand, Universität von Washington
E-Mail: jspark96@cs.washington.edu
Website: https://homes.cs.washington.edu/~jspark96/
Jae Sung ist Doktorand und wird von Yejin Choi und Ali Farhadi betreut. Seine Forschung konzentriert sich auf die Entwicklung von Modellen mit multimodalem Commonsense-Reasoning. Er ist daran interessiert, Modelle mit Grundlagen auszustatten, die linguistische Konzepte in die visuelle Modalität einordnen und es ihnen ermöglichen, multimediale Inhalte auf dieselbe Weise zu verstehen, wie Menschen visuelle Informationen verarbeiten.Jae Sung erwarb seinen Bachelor of Science in Informatik an der University of California, Berkeley.

Bidipta Sarkar

Student der Stanford University
E-Mail: bidiptas@stanford.edu
Website: https://bsarkar321.github.io/
Bidipta Sarkar ist Student im Grundstudium an der Stanford University und Mitglied des Stanford ILIAD Lab. Seine Forschung konzentriert sich auf die Entwicklung künstlich intelligenter Agenten, die mit ihrer Umgebung interagieren und sicher mit Menschen und anderen autonomen Agenten zusammenarbeiten können.

Rohan Taori

Doktorand, Informatik, Universität Stanford
E-Mail: rtaori@cs.stanford.edu
Website: https://www.rohantaori.com/
Rohan Taori ist Doktorand im Labor für Künstliche Intelligenz an der Stanford University. Seine Forschung konzentriert sich auf die Grundlagen des maschinellen Lernens im Zusammenhang mit realen Systemen. In jüngster Zeit hat Rohan die Grenzen von Open-Source-Sprachmodellen erweitert, indem er sie zu nützlichen Allzweck-Assistenten weiterentwickelt hat. Rohan interessiert sich auch für die Erweiterung großer Sprachmodelle mit multimodalen Fähigkeiten, um sie in die Lage zu versetzen, Schlussfolgerungen über Bilder und Videos zu ziehen.Rohan erhielt seinen B.S. in Informatik von der University of California, Berkeley.

Yusuke Noda

Leitender Software-Ingenieur bei Microsoft Gaming, Redmond, WA.
E-Mail: yusuke.noda@microsoft.com
Website: https://www.linkedin.com/in/yusuke-noda-908797/
Yusuke Noda ist ein Principal Software Engineer für die Microsoft Gaming Platform. Er leitete die Entwicklung der Gaming-Infrastruktur für Xbox One und Xbox Cloud Gaming und verfügt über 16 Jahre Erfahrung in der Entwicklung effizienter Infrastrukturen für Cloud- und Gaming-Technologien.

Demetri Terzopoulos

UCLA Distinguished Professor, Oscar-gekrönter Computerwissenschaftler und Unternehmer.
E-Mail: dt@cs.ucla.edu
Website: https://web.cs.ucla.edu/~dt/
Dr. Demetri Terzopoulos ist Distinguished Professor und Chancellor's Professor of Computer Science an der UCLA, wo er das UCLA Computer Graphics and Vision Laboratory leitet. Außerdem ist er Mitbegründer und leitender Wissenschaftler von VoxelCloud, Inc. einem multinationalen KI-Unternehmen im Gesundheitswesen. Er ist bzw. war Guggenheim Fellow, Fellow der Royal Society of London (FRS) und der Royal Society of Canada (FRSC), Fellow der Association for Computing Machinery (ACM), lebenslanges Mitglied des Institute of Electrical and Electronics Engineers (IEEE), Fellow der Asia Pacific Association for Artificial Intelligence (AAIA), Distinguished Fellow des International Institute of Engineering and Technology (IETI), Fellow der European Academy of Sciences (EAS) und der New York Academy of Sciences (NYAS). Er ist Mitglied der Europäischen Akademie der Wissenschaften (EAS) und der New Yorker Akademie der Wissenschaften (NYAS) sowie lebenslanges Mitglied von Sigma Xi.

Yejin Choi

Wisnner-Slivaka Lehrstuhl und Brett Helsel Professor an der University of Washington, Senior Research Manager und MacArthur Fellow am Allen Institute for Artificial Intelligence.
E-Mail: yejin@cs.washington.edu
Website: https://homes.cs.washington.edu/~yejin/
Yejin ist Inhaberin des Wisnner-Slivaka-Lehrstuhls und Brett Helsel Professorin an der University of Washington und Senior Research Manager am Allen Institute for Artificial Intelligence. Im Jahr 2018 erhielt sie den Anita Borg Early Career Award. Sie ist Empfängerin eines MacArthur Fellows Foundation Fellowship für 2020. Sie erhielt Distinguished Paper Awards für AAAI 2020, Neurips 2021, ICML 2022 und ACL 2023 und Best Paper Awards für NAACL 2022 und ACL 2023. Sie ist eine der Hauptorganisatoren von COLM 2024, einer akademischen Veranstaltung, die sich mit Sprachmodellierungsforschung befasst. Ihre Hauptforschungsinteressen liegen in den Bereichen Verarbeitung natürlicher Sprache, maschinelles Lernen und Commonsense Reasoning in der künstlichen Intelligenz sowie in den Bereichen Computer Vision und Digital Humanities.

Fei-Fei Li

Professor für Informatik, Universität Stanford
E-Mail: feifeili@stanford.edu
Website: https://profiles.stanford.edu/fei-fei-li/
Fei-Fei ist die erste Sequoia-Professorin am Fachbereich Informatik der Stanford University und Co-Direktorin des Institute for Human-Centred Artificial Intelligence in Stanford. Von 2013 bis 2018 war sie Direktorin des Stanford Artificial Intelligence Laboratory. Während ihres Sabbaticals in Stanford von Januar 2017 bis September 2018 war Dr. Lee als Vizepräsidentin bei Google und als Chief Scientist für Künstliche Intelligenz/Maschinenlernen bei Google Cloud tätig. Seitdem war sie als Vorstandsmitglied oder Beraterin für mehrere öffentliche und private Unternehmen tätig.

Katsushi Ikeuchi

Senior Principal Research Manager bei Microsoft und IEEE-Mitglied auf Lebenszeit. Microsoft Research, Redmond, Washington, U.S.A. IEEE-Mitglied auf Lebenszeit.
E-Mail: katsuike@microsoft.com
Website: https://www.microsoft.com/en-us/research/people/katsuike/
Dr. Katsushi Ikeuchi erwarb 1973 seinen B.S. in Maschinenbau an der Universität Kyoto und promovierte 1978 in Informationstechnik an der Universität Tokio. Nach drei Jahren am MIT Artificial Intelligence Laboratory, fünf Jahren am Electronics Technology Laboratory des Ministeriums für internationalen Handel und Industrie der japanischen Regierung, zehn Jahren am Robotics Institute der Carnegie Mellon University und 19 Jahren am Institute of Industrial Science der Universität Tokio kam er 2015 als Principal Researcher zu Microsoft. Während seiner Zeit an der CMU und der Universität Tokio betreute er mehr als 50 Doktoranden.

Seine Forschungsinteressen umfassen Computer Vision, Robotik und Computergrafik. Er hat mehrere Auszeichnungen für die besten Arbeiten in diesen Forschungsbereichen erhalten, darunter den David Marr Award in Computational Vision und den IEEE Robotics and Automation Society K. S. Fu Memorial Best Paper Award.

Zu seinen Verdiensten in der Gemeinschaft gehören: General Chair von IROS95, ITSC99, IV01, ICCV05, ACCV07, ICCV17; Programme Chair von CVPR96, ICCV03, ICRA09, ICPR12, ICCV15; EIC von IJCV (2000-2017), EIC von IJ ITS (2012-2014), Associate Editor von IEEE Trans. EIC für IJCV (2000-2017), EIC für IJ ITS (2012-2014), Associate Editor für IEEE Trans. RA, IEEE Trans. PAMI; und Distinguished Lecturer für die IEEE Signal Processing Society 2000-2002, IEEE Robotics and Automation Society 2004-2006, und IEEE Computer Society 2008-2010.

Im Rahmen dieser Forschung und seiner gemeinnützigen Arbeit erhielt er (lebenslange) Stipendien von IEEE, IEICE, IPSJ und RSJ. Er erhielt den Distinguished Researcher Award von IEEE-PAMI, die Medaille mit Purple Ribbon des japanischen Kaisers, den Okawa-Preis der Okawa-Stiftung und mehrere Auszeichnungen für Forschungsleistungen von japanischen Berufsverbänden.

Hoi Vo

Technologie-Fellow. Microsoft Games und X-Box Emerging Technologies, Redmond, WA, USA.
E-Mail: hoiv@microsoft.com
Website: https://www.linkedin.com/in/hoi-vo-193420/
Hoi Vo ist Technical Researcher in der Gaming Division von Microsoft und konzentriert sich auf die Integration von AGI in neue Spiele-IP. Er spielte eine Schlüsselrolle bei der Entwicklung des Xbox Cloud Gaming Service und leitete die Cloud- und Gaming-Bemühungen in allen Microsoft-Teams, einschließlich der Windows Azure-Plattform von Microsoft. Sein Schwerpunkt liegt auf der Optimierung von KI-Modellen, damit diese effizient im Edge-Bereich laufen, während die Cloud genutzt wird, um Szenarien zu bewältigen, die über die Möglichkeiten der Hardware hinausgehen, einschließlich der Feinabstimmung von Modellen, um sie für eine Vielzahl von Spielerlebnissen attraktiver zu machen.

Jianfeng Gao

Ausgezeichneter Wissenschaftler und Vizepräsident bei Microsoft und IEEE Fellow. Microsoft Research, Redmond, WA, USA. IEEE Fellow.
E-Mail: jfgao@microsoft.com
Website: https://www.microsoft.com/en-us/research/people/jfgao/
Dr. Jianfeng Gao ist Distinguished Scientist und Vice President bei Microsoft Research, Fellow of the IEEE, Distinguished Member of the ACM und derzeitiger Leiter der Deep Learning Group bei Microsoft Research.Von 2014 bis 2017 war er Business AI Partner Research Manager. Er leitete die Entwicklung von prädiktiven KI-Lösungen für Vertrieb und Marketing. Er hat auch an Deep Learning für Text- und Bildverarbeitung gearbeitet (siehe ACL/SIGIR 2018 Tutorials, Deep Learning 2017 Tutorials und IJCAI 2016 Tutorials, oder Microsofts Intranetseite) und leitete die Entwicklung von KI-Systemen für Dialog, maschinelles Leseverständnis (MRC) und Fragenbeantwortung (QA). Seit 2022 leitet er die Forschung zur selbstverbessernden KI, die LLM (z. B. ChatGPT/GPT4) für die Entwicklung kommerzieller KI-Systeme verbessert und anpasst.

ein Dankeschön-Schreiben

Unser besonderer Dank gilt Peter Lee, Doug Burger, Desney Tan, Johannes Gehrke, Ryen White, Ece Kamar, Subhojit Som und Kareem Choudhry für ihre Ratschläge, ihre tatkräftige Unterstützung und ihren Zuspruch. Wir danken Haiyan Zhang, Spencer Perreault, Dave Bignell, Katja Hofmann, Sam Devlin, Shanzheng Tan, Raluca Georgescu, Bill Dolan, Nebojsa Jojic, Sudha Rao, Adrian Brown und Andrzej Banburski-Fahey für aufschlussreiche frühe Diskussionen und Hilfe beim Spielen. Wir danken Kiran Muthabatulla, Antonio Criminisi, Tom Cashman, Nguyen Bach, Jennifer Marsman und Jaron Lanier aus dem Microsoft Mesh Team, Microsoft OCTO und dem Microsoft Office Team für ihre Beiträge zur Mixed Reality Arbeit, die Arbeit an den Datensätzen und ihre großzügige Hilfe und Beiträge zu diesem Projekt. und ihre großzügige Hilfe und ihr Feedback zu diesem Projekt. Besonders dankbar sind wir Paul Bennett, Corby Rosset, Michel Galley, Chenglong Wang, Baolin Peng, Hao Chen, Silviu Cucerzan, Ahmed Awadallah und Saleema Amershi für ihre Vorschläge und Kommentare zum NLP-Abschnitt. Kommentare zum NLP-Abschnitt. Die Autoren danken Paul Smolensky, Yonatan Bisk, Kezhen Chen, Borui Wang, Liangke Gui, Dingmin Wang, Xin (Eric) Wang, Zhe Gan, Xiaojian Ma, Zilong Zheng, Song-chun Zhu, Dragomir R. Wang und D. S. Wang für ihre Vorschläge und Kommentare zum NLP-Teil. Zhu, Dragomir R. Radev, Daniel McDuff und Harry Shum für verwandte frühere Arbeiten, Kommentare, Vorschläge, sorgfältige Mehrfachüberprüfungen dieses Papiers und ihre Hinweise auf die Literatur. Schließlich danken wir dem Microsoft Holulens Team, dem Microsoft X-box Team und dem Meta Quest Team für die großzügige Bereitstellung der Geräte; dem MSR Central Engineering (CE) Team, dem Microsoft 343 Team für die Datenerfassung und -weitergabe; und den Microsoft AOAI und GCR Teams für ihre Unterstützung des Azure-OpenAI Endpunkts.

Wir möchten auch unseren Kollegen von der Stanford AI-Assisted Care Partnership danken, die uns geholfen haben, die in dieser Arbeit untersuchten medizinischen Anwendungen zu verstehen. Besonders dankbar sind wir Ehsan Adeli, Paul Tang, Amit Kaushal, Roger Bohn, Kevin Schulman und Arnold Milstein für ihre klinische Expertise und Beratung.

Diese Forschung wurde von Microsoft Research Project Fair 2023, Microsoft HackBox 2023 und dem OCTO-Team unterstützt.