Agent AI: Exploring the Frontier World of Multimodal Interaction [Fei Fei Li - Lecturas clásicas obligatorias].

Base de conocimientos de IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

72.6K 00

Agent AI: Surveying the Horizons of Multimodal Interaction.

Original: https://ar5iv.labs.arxiv.org/html/2401.03568

resúmenes

Es probable que los sistemas de IA multimodal sean omnipresentes en nuestra vida cotidiana. Un enfoque prometedor para que estos sistemas sean más interactivos consiste en implementarlos como inteligencias en entornos físicos y virtuales. En la actualidad, los sistemas utilizan los modelos de base existentes como elementos básicos para crear inteligencias incorporadas. Integrar las inteligencias en esos entornos contribuye a la capacidad del modelo para procesar e interpretar datos visuales y contextuales, lo que es fundamental para crear sistemas de IA más complejos y conscientes del contexto. Por ejemplo, un sistema capaz de percibir el comportamiento del usuario, el comportamiento humano, los objetos del entorno, las representaciones sonoras y la emoción colectiva de una escena puede utilizarse para informar y guiar la respuesta de un organismo inteligente en un entorno determinado. Para acelerar el estudio de las inteligencias basadas en la inteligencia multimodal, definimos la "IA de agente" como una clase de sistemas interactivos que pueden percibir estímulos visuales, entradas lingüísticas y otros datos basados en el entorno, y pueden producir comportamientos corporales significativos. En concreto, exploramos sistemas que pretenden mejorar la predicción de inteligencias basadas en el siguiente comportamiento encarnado mediante la integración de conocimientos externos, entradas multisensoriales y retroalimentación humana. Argumentamos que la ilusión de los grandes modelos de base y su tendencia a producir resultados ambientalmente incorrectos también pueden mitigarse desarrollando sistemas de IA corporal inteligente en entornos aterrizados. El campo emergente de la "IA de agentes" abarca los aspectos corporales e inteligentes más amplios de la interacción multimodal. Además de las inteligencias que actúan e interactúan en el mundo físico, prevemos un futuro en el que las personas puedan crear fácilmente cualquier escenario de realidad virtual o simulación e interactuar con inteligencias integradas en el entorno virtual.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 1: Visión general de un sistema de IA agente que puede percibir y actuar en diferentes dominios y aplicaciones.La IA agente se perfila como una vía prometedora hacia la Inteligencia Artificial General (IAG).El entrenamiento de la IA agente ha demostrado la capacidad de realizar una comprensión multimodal en el mundo físico. Proporciona un marco para el entrenamiento independiente de la realidad aprovechando la IA generativa y múltiples fuentes de datos independientes. Cuando se entrenan con datos de realidad cruzada, los grandes modelos base entrenados para inteligencias y tareas relacionadas con la acción pueden aplicarse tanto a mundos físicos como virtuales. Mostramos una visión general de un sistema de IA agente que puede percibir y actuar en muchos dominios y aplicaciones diferentes, sirviendo potencialmente como vía hacia la AGI utilizando el paradigma del cuerpo inteligente.

directorio (en el disco duro del ordenador)

1 introducción
1. 1.1 locomotora
2. 1.2 contextos
3. 1.3 esbozado
2 Integración de la IA en los agentes
1. 2.1 Inteligencia artificial infinita
2. 2.2 IA de agentes mediante modelos de base a gran escala
  1. 2.2.1 producto de la imaginación
  2. 2.2.2 Prejuicios e inclusión
  3. 2.2.3 Privacidad y uso de los datos
  4. 2.2.4 Interpretabilidad y descriptividad
  5. 2.2.5 Mejora del razonamiento
  6. 2.2.6 supervisor
3. 2.3 IA de agentes para capacidades emergentes
3 Paradigma de IA agente
1. 3.1 Grandes modelos lingüísticos y modelos lingüísticos visuales
2. 3.2 Definición de transformador corporal inteligente
3. 3.3 Creación de transformadores corporales inteligentes
4 Agente AI Aprendizaje
1. 4.1 Estrategias y mecanismos
  1. 4.1.1 Aprendizaje por refuerzo (RL)
  2. 4.1.2 Aprendizaje por imitación (AI)
  3. 4.1.3 RGB convencional
  4. 4.1.4 Aprendizaje situacional
  5. 4.1.5 Optimización en sistemas corporales inteligentes
2. 4.2 Sistemas corporales inteligentes (cero y pocos niveles de muestra)
  1. 4.2.1 Módulo de carrocería inteligente
  2. 4.2.2 Infraestructura corporal inteligente
3. 4.3 Modelo de base corporal inteligente (niveles de preentrenamiento y perfeccionamiento)
5 Clasificación de la IA de los agentes
1. 5.1 Dominio de Inteligencia General
2. 5.2 inteligencia corporal
  1. 5.2.1 inteligencia móvil
  2. 5.2.2 inteligencia interactiva
3. 5.3 Simulación e inteligencias ambientales
4. 5.4 inteligencia generativa
  1. 5.4.1 AR/VR/Realidad mixta Cuerpo inteligente
5. 5.5 Inteligencia intelectual y razonamiento lógico
  1. 5.5.1 Unidad de Inteligencia Intelectual (KIU)
  2. 5.5.2 inteligencia lógica
  3. 5.5.3 Inteligencia para el razonamiento emocional
  4. 5.5.4 Unidad de Inteligencia Neurosimbólica (NSI)
6. 5.6 Grandes Inteligencias de Modelización del Lenguaje y Modelización Visual del Lenguaje
6 Tareas de aplicación de la IA de los agentes
1. 6.1 Cuerpos inteligentes para el juego
  1. 6.1.1 Comportamiento de los PNJ
  2. 6.1.2 Interacción Persona-NPC
  3. 6.1.3 Análisis inteligente del juego basado en el cuerpo
  4. 6.1.4 Para la composición de escenas de juego
  5. 6.1.5 Experimentos y resultados
2. 6.2 Robótica
  1. 6.2.1 Grandes inteligencias de modelos lingüísticos/modelos lingüísticos visuales para la robótica.
  2. 6.2.2 Experimentos y resultados.
3. 6.3 atención sanitaria
  1. 6.3.1 Capacidad actual de asistencia sanitaria
4. 6.4 inteligencia multimodal
  1. 6.4.1 Comprensión y generación de imágenes
  2. 6.4.2 Comprensión y generación de vídeo y lenguaje
  3. 6.4.3 Experimentos y resultados
5. 6.5 Vídeo - Experimento lingüístico
6. 6.6 Intelligentsia para el procesamiento del lenguaje natural
  1. 6.6.1 Inteligencia de Big Language Modelling
  2. 6.6.2 Inteligencia universal de modelización de grandes lenguajes (ULM)
  3. 6.6.3 Modelo Intelligentsia de seguimiento de comandos en lenguas grandes
  4. 6.6.4 Experimentos y resultados
7 Inteligencia artificial de agentes en distintas modalidades, ámbitos y realidades
1. 7.1 Inteligencia para la comprensión intermodal
2. 7.2 Inteligencia para la comprensión entre dominios
3. 7.3 Inteligencia interactiva para la intermodalidad y la interrealidad
4. 7.4 Migración de la simulación a la realidad
8 Mejora continua y automática de la IA de los agentes
1. 8.1 Datos basados en la interacción humana
2. 8.2 Datos generados por el modelo base
9 Conjuntos de datos y tablas de clasificación de Smartbody
1. 9.1 El conjunto de datos "CuisineWorld" para juegos multiinteligencia
  1. 9.1.1 patrón de referencia
  2. 9.1.2 mandatos
  3. 9.1.3 Indicadores y juicios
  4. 9.1.4 valoración
2. 9.2 Conjunto de datos de preaprendizaje de audio-vídeo-lenguaje.
10 Declaración de impacto más amplia
11 consideraciones éticas
12 Declaración sobre la diversidad
A GPT-4V Alerta corporal inteligente Detalles
B GPT-4V para Bleeding Edge
C GPT-4V para Microsoft Flight Simulator
D GPT-4V para Assassin's Creed Odyssey
E GPT-4V para GEARS of WAR 4
F GPT-4V para Starfield

1 Introducción

1.1 Motivación

Históricamente, los sistemas de IA se definieron en la Conferencia de Dartmouth de 1956 como "formas de vida artificial" capaces de recoger información del entorno e interactuar con él de forma útil. Inspirándose en esta definición, el grupo de Minsky en el MIT construyó en 1970 un sistema robótico denominado Demostración de Réplica, que observaba un escenario de "mundo de bloques" y reconstruía con éxito la estructura poliédrica de bloques observada. El sistema incluía módulos de observación, planificación y manipulación, lo que reveló que cada subproblema suponía un reto y requería más investigación. El campo de la IA está fragmentado en subcampos especializados que han hecho grandes progresos en la resolución de estos y otros problemas, pero la simplificación excesiva oscurece los objetivos generales de la investigación en IA.

Para superar el statu quo, es necesario volver a los fundamentos de la IA impulsados por el holismo aristotélico. Afortunadamente, las recientes revoluciones en el modelado de grandes lenguajes (LLM/Large Language Model) y el modelado de lenguajes visuales (VLM/Visual Language Model) han hecho posible la creación de nuevos tipos de inteligencias de IA que se ajustan a los ideales holísticos. Aprovechando esta oportunidad, este artículo explora modelos que integran la competencia lingüística, la cognición visual, la memoria contextual, el razonamiento intuitivo y la adaptabilidad. Explora el potencial de utilizar grandes modelos lingüísticos y modelos lingüísticos visuales para lograr esta síntesis holística. En nuestra exploración, también revisamos el diseño de sistemas basados en la "causa intencionada" de Aristóteles, es decir, la "razón de ser del sistema" teleológica, que puede haberse descuidado en anteriores desarrollos de IA.

El renacimiento del procesamiento del lenguaje natural y de la visión por ordenador se ha visto catalizado por la aparición de potentes modelos lingüísticos de gran tamaño preentrenados y modelos lingüísticos visuales. Los grandes modelos lingüísticos demuestran ahora una asombrosa capacidad para descifrar los matices de los datos lingüísticos del mundo real, a menudo igualando o incluso superando la pericia humana OpenAI (2023). Recientemente, los investigadores han demostrado que los grandes modelos lingüísticos pueden ampliarse para actuar en diversos entornos comocuerpo inteligenteque llevan a cabo acciones y tareas complejas cuando se combinan con conocimientos y módulos específicos del dominio Xi et al. (2023). Estos escenarios se caracterizan por un razonamiento complejo, la comprensión de las funciones de las inteligencias y sus entornos, y la planificación en varios pasos, poniendo a prueba la capacidad de las inteligencias para tomar decisiones muy matizadas y complejas dentro de las limitaciones de su entorno Wu et al. (2023); Meta Fundamental AI Research Diplomacy Team et al. (2022) Meta Fundamental AI Research Diplomacy Team (FAIR), Bakhtin, Brown, Dinan, Farina, Flaherty, Fried, Goff, Gray, Hu, et al. (FAIR).

Sobre la base de estos esfuerzos iniciales, la comunidad de la IA se encuentra en la cúspide de un importante cambio de paradigma que se aleja de la creación de modelos de IA para su uso en tareas pasivas y estructuradas, y se acerca a modelos capaces de asumir el papel de cuerpos dinámicos e inteligentes en entornos diversos y complejos. Con este telón de fondo, este artículo investiga el gran potencial del uso de grandes modelos lingüísticos y modelos lingüísticos visuales como inteligencias, haciendo hincapié en los modelos que combinan la competencia lingüística, la cognición visual, la memoria contextual, el razonamiento intuitivo y la adaptabilidad. El uso de grandes modelos lingüísticos y modelos lingüísticos visuales como inteligibles, sobre todo en ámbitos como los juegos, la robótica y la atención sanitaria, no sólo proporciona una plataforma rigurosa para la evaluación de los sistemas de IA más avanzados, sino que también presagia el impacto transformador que la IA centrada en los inteligibles tendrá en la sociedad y la industria. Cuando se utilicen plenamente, los modelos corporales inteligentes pueden redefinir la experiencia humana y elevar los estándares operativos. El potencial de automatización total de estos modelos anuncia un cambio drástico en la industria y la dinámica socioeconómica. Estos avances se entrelazarán con tablas de clasificación polifacéticas, no sólo desde el punto de vista tecnológico, sino también ético, como desarrollaremos en la sección 11. Profundizamos en los dominios superpuestos de estos subcampos de la IA del cuerpo inteligente e ilustramos su interconexión en la Figura 1.

1.2 Antecedentes

A continuación presentaremos trabajos de investigación relevantes que apoyan el concepto, los fundamentos teóricos y las implementaciones modernas de la Inteligencia Artificial para Cuerpos Inteligentes.

Modelos de base a gran escala.

Los grandes modelos lingüísticos y los modelos lingüísticos visuales han impulsado los esfuerzos para desarrollar máquinas inteligentes de propósito general (Bubeck et al., 2023; Mirchandani et al., 2023). Aunque se entrenan utilizando grandes corpus de texto, sus capacidades superiores de resolución de problemas no se limitan al dominio canónico del procesamiento del lenguaje. Los grandes modelos lingüísticos tienen el potencial de manejar tareas complejas que antes se consideraban dominio exclusivo de los expertos humanos o de algoritmos específicos del dominio, desde el razonamiento matemático (Imani et al., 2023; Wei et al., 2022; Zhu et al., 2022) hasta la respuesta a cuestiones jurídicas especializadas (Blair-Stanek et al., 2023; Choi et al.) 2023; Nay, 2022). Investigaciones recientes han demostrado que es posible generar planes complejos para IA robóticas y de juegos utilizando grandes modelos lingüísticos (Liang et al., 2022; Wang et al., 2023a, b; Yao et al., 2023a; Huang et al., 2023a), lo que marca un hito importante en el uso de grandes modelos lingüísticos como inteligencias inteligentes de propósito general.

IA incorporada.

Algunos trabajos han utilizado grandes modelos lingüísticos para realizar la planificación de tareas (Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a), en particular el conocimiento del dominio a escala de la World Wide Web y las capacidades emergentes de cero muestras incorporadas de grandes modelos lingüísticos para realizar la planificación y el razonamiento de tareas complejas. La investigación robótica reciente también ha utilizado grandes modelos de lenguaje para realizar la planificación de tareas (Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022) descomponiendo los comandos de lenguaje natural en una serie de subtareas (ya sea en forma de lenguaje natural o de código Python), que luego se ejecutan utilizando un controlador de bajo nivel. Además, incorporan retroalimentación del entorno para mejorar el rendimiento de la tarea (Huang et al., 2022b), (Liang et al., 2022), (Wang et al., 2023a) e (Ikeuchi et al., 2023).

Aprendizaje interactivo:

Las inteligencias artificiales diseñadas para el aprendizaje interactivo funcionan mediante una combinación de técnicas de aprendizaje automático e interacción con el usuario. Inicialmente, las inteligencias IA se entrenan con un gran conjunto de datos. Este conjunto de datos contiene varios tipos de información, dependiendo de la función prevista de las inteligencias. Por ejemplo, una IA diseñada para una tarea lingüística se entrenaría con un gran corpus de datos de texto. El entrenamiento implica el uso de algoritmos de aprendizaje automático, que pueden incluir modelos de aprendizaje profundo (por ejemplo, redes neuronales). Estos modelos de entrenamiento permiten a la IA reconocer patrones, hacer predicciones y generar respuestas basadas en los datos sobre los que se ha entrenado. Las inteligencias artificiales también pueden aprender de las interacciones en tiempo real con los usuarios. Este aprendizaje interactivo puede producirse de varias maneras: 1) Aprendizaje basado en la retroalimentación: la IA ajusta sus respuestas basándose en la retroalimentación directa del usuario Li et al. (2023b); Yu et al. (2023a); Parakh et al. (2023); Zha et al. (2023); Wake et al. (2023a, b, c). Por ejemplo, si el usuario corrige la respuesta de la IA, ésta puede utilizar esta información para mejorar futuras respuestas Zha et al. (2023); Liu et al. (2023a). 2) Aprendizaje observacional: la IA observa las interacciones del usuario y aprende implícitamente. Por ejemplo, si un usuario hace preguntas similares con frecuencia o interactúa con la IA de una manera determinada, la IA puede adaptar sus respuestas para ajustarse mejor a estos patrones. Permite a las inteligencias IA comprender y procesar el lenguaje humano, los entornos multimodales, interpretar situaciones de realidad cruzada y generar respuestas de los usuarios humanos. Con el tiempo, el rendimiento de las inteligencias IA suele seguir mejorando gracias a una mayor interacción y retroalimentación de los usuarios. Este proceso suele estar supervisado por un operador o desarrollador humano que se asegura de que la IA está aprendiendo adecuadamente y no está desarrollando sesgos o patrones incorrectos.

1.3 Panorama general

La IA de agente multimodal (MAA/Multimodal Agent AI) es un conjunto de sistemas que generan acciones eficaces en un entorno determinado basándose en la comprensión de entradas sensoriales multimodales. Con la aparición del Modelo de Lenguaje Amplio (LLM/Large Language Model) y el Modelo de Lenguaje Visual (VLM/Visual Language Model), se han propuesto varios sistemas de IA de agentes multimodales en ámbitos que van desde la investigación básica hasta las aplicaciones. Aunque estas áreas de investigación están evolucionando rápidamente a través de la integración con técnicas tradicionales en cada dominio (por ejemplo, el interrogatorio visual y la navegación mediante lenguaje visual), comparten intereses comunes como la recopilación de datos, la evaluación comparativa y las perspectivas éticas. En este artículo, nos centramos en algunas áreas de investigación representativas de la IA para inteligencias multimodales, a saber, la multimodalidad, los juegos (VR/AR/MR), la robótica y la asistencia sanitaria, y nuestro objetivo es proporcionar un conocimiento exhaustivo sobre las preocupaciones comunes que se debaten en estas áreas. Así, queremos aprender los fundamentos de la IA para las inteligencias multimodales y obtener conocimientos para seguir avanzando en su investigación. Los resultados específicos del aprendizaje incluyen:

Una visión general de la Inteligencia Artificial para la Inteligencia Multimodal: una mirada en profundidad a sus principios y su papel en las aplicaciones contemporáneas, que proporciona a los investigadores una comprensión exhaustiva de su importancia y sus usos.
METODOLOGÍA: Estudios de casos de juegos, robótica y atención sanitaria detallan cómo los modelos de macrolenguaje y los modelos de lenguaje visual pueden mejorar la inteligencia artificial de las inteligencias multimodales.
Evaluación del rendimiento: guía para evaluar inteligencias multimodales AI utilizando conjuntos de datos pertinentes, centrándose en su eficacia y capacidad de generalización.
Consideraciones éticas: debate sobre las implicaciones sociales y las clasificaciones éticas del despliegue de IA en cuerpos inteligentes, destacando las prácticas de desarrollo responsable.
Tendencias emergentes y gráficos de futuro: clasifica los últimos avances en cada área y analiza las orientaciones futuras.

Las inteligencias de acción y generalistas basadas en el ordenador (AG/Agente Generalista) son útiles para muchas tareas. Para que un Cuerpo Inteligente Generalista sea realmente valioso para sus usuarios, debe poder interactuar de forma natural y generalizarse a una amplia gama de contextos y modalidades. Nuestro objetivo es fomentar un vibrante ecosistema de investigación dentro de la comunidad de la IA del cuerpo inteligente y crear un sentido compartido de identidad y propósito. La IA corporal inteligente multimodal tiene potencial para aplicarse a una amplia gama de contextos y modalidades, incluida la entrada de datos humanos. Por lo tanto, creemos que este campo de la IA corporal inteligente puede atraer a una gran variedad de investigadores, fomentando así una comunidad dinámica de IA corporal inteligente y objetivos compartidos. Dirigido por expertos de renombre del mundo académico y de la industria, esperamos que este trabajo sea una experiencia interactiva y enriquecedora, que incluya tutoriales sobre el cuerpo inteligente, estudios de casos, sesiones de tareas y debates experimentales, garantizando una experiencia de aprendizaje completa y atractiva para todos los investigadores.

El objetivo de este documento es proporcionar un conocimiento general y exhaustivo de la investigación actual en el campo de la inteligencia artificial para la intelligentsia. Para ello, el resto del documento se organiza como sigue. La sección 2 esboza cómo la IA para inteligencias corporales puede beneficiarse de la integración con tecnologías emergentes relevantes, en particular los modelos de base a gran escala. La sección 3 describe el nuevo paradigma y marco que proponemos para el entrenamiento de la IA corporal inteligente. La sección 4 ofrece una visión general de los métodos más utilizados para el entrenamiento de la IA corporal inteligente. La sección 5 clasifica y analiza varios tipos de inteligibles. La Sección 6 describe las aplicaciones de la IA de cuerpo inteligente en los juegos, la robótica y la atención sanitaria. La Sección 7 explora los esfuerzos de la comunidad investigadora para desarrollar una IA de cuerpo inteligente de propósito general que pueda aplicarse a diversas modalidades y dominios, y salvar la brecha entre simulación y realidad. La sección 8 analiza el potencial de una IA corporal inteligente que no sólo se base en modelos preentrenados, sino que aprenda y mejore continuamente aprovechando las interacciones con el entorno y el usuario. La sección 9 describe nuestro nuevo conjunto de datos diseñado para entrenar la IA corporal inteligente multimodal. La sección 11 analiza el candente tema de las inteligencias de IA, las limitaciones y las consideraciones éticas de las implicaciones sociales de nuestro trabajo.

2 Cuerpo inteligente Integración de la inteligencia artificial

Como se ha sugerido en estudios anteriores, los modelos subyacentes basados en modelos de macrolenguaje y modelos de lenguaje visual siguen mostrando un rendimiento limitado en el campo de la IA incorporada, especialmente a la hora de comprender, generar, editar e interactuar en entornos o escenas invisibles Huang et al. (2023a); Zeng et al. (2023). Como resultado, estas limitaciones conducen a un rendimiento subóptimo de las inteligencias de IA. Los enfoques actuales del modelado de IA centrado en la inteligencia se centran en datos directamente accesibles y bien definidos (por ejemplo, representaciones textuales o de cadenas del estado del mundo) y suelen utilizar patrones independientes del dominio y del entorno aprendidos a partir de su preentrenamiento a gran escala para predecir los resultados de las acciones en cada entorno Xi et al. (2023); Wang et al. (2023c); Gong et al. (2023a); Wu et al. (2023). En (Huang et al., 2023a), investigamos la tarea de colaboración guiada por el conocimiento y la generación interactiva de escenas mediante la combinación de grandes modelos de base, y mostramos resultados prometedores que sugieren que las inteligencias basadas en el conocimiento de grandes modelos de lenguaje pueden mejorar el rendimiento de la comprensión, generación y edición de escenas 2D y 3D, así como otras interacciones entre humanos y ordenadores Huang et al. (2023a). ). Al integrar el marco de IA del cuerpo inteligente, el modelo de base grande es capaz de comprender las entradas del usuario con mayor profundidad, lo que da lugar a sistemas de interacción persona-ordenador complejos y adaptativos. Las capacidades emergentes de los grandes modelos de lenguaje y los modelos de lenguaje visual desempeñan un papel inédito en la interacción persona-ordenador para la IA generativa, la IA corporizada, el aumento del conocimiento para el aprendizaje multimodal, la generación de realidad mixta, la edición de texto a visión y la simulación 2D/3D en juegos o tareas de robótica. Los recientes avances en la modelización fundamental de la IA corporal inteligente proporcionan un catalizador inminente para desbloquear la inteligencia genérica en las inteligencias corporales. Los modelos de acción a gran escala o los modelos de lenguaje visual de las inteligencias abren nuevas posibilidades para los sistemas corporales genéricos, como la planificación, la resolución de problemas y el aprendizaje en entornos complejos. La IA incorporada inteligente da nuevos pasos en el metauniverso y señala el camino hacia las primeras versiones de la IA de propósito general.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Fig. 2: Inteligencia Artificial Multimodal Smartbody para la generación 2D/3D encarnada y la edición de interacciones a través de la realidad.

2.1 Inteligencia artificial infinita

Las inteligencias artificiales tienen la capacidad de interpretar, predecir y responder basándose en su entrenamiento y en los datos de entrada. Aunque estas capacidades son avanzadas y están mejorando, es importante reconocer sus limitaciones y el impacto de los datos subyacentes sobre los que se entrenan. Los sistemas de inteligencia artificial suelen tener las siguientes capacidades: 1) Modelización predictiva: las inteligencias artificiales pueden predecir resultados probables o sugerir pasos posteriores basándose en datos históricos y tendencias. Por ejemplo, pueden predecir la continuación de un texto, la respuesta a una pregunta, la siguiente acción de un robot o la solución a un escenario.2) Toma de decisiones: en algunas aplicaciones, las inteligencias IA pueden tomar decisiones basadas en sus inferencias. Normalmente, las inteligencias tomarán decisiones basándose en lo que tiene más probabilidades de alcanzar el objetivo especificado. En el caso de aplicaciones de IA como los sistemas de recomendación, las inteligencias pueden decidir qué productos o contenidos recomendar basándose en sus inferencias sobre las preferencias del usuario.3) Tratamiento de la ambigüedad: las inteligencias de IA a menudo pueden tratar entradas ambiguas deduciendo la interpretación más probable basándose en el contexto y el entrenamiento. Sin embargo, su capacidad para hacerlo está limitada por el alcance de sus datos y algoritmos de entrenamiento.4) Mejora continua: aunque algunas inteligencias de IA tienen la capacidad de aprender de nuevos datos e interacciones, muchos grandes modelos lingüísticos no actualizan continuamente su base de conocimientos o representaciones internas después del entrenamiento. Sus inferencias suelen basarse únicamente en los datos disponibles en el momento de la última actualización del entrenamiento.

En la Figura 2 mostramos inteligencias interactivas aumentadas para la integración multimodal y agnóstica entre realidades con mecanismos emergentes. Los inteligibles de inteligencia artificial requieren la recopilación de grandes cantidades de datos de entrenamiento para cada nueva tarea, lo que puede resultar costoso o imposible para muchos dominios. En este estudio, desarrollamos un cuerpo inteligente infinito que aprende a transferir información en memoria desde un modelo base de propósito general (por ejemplo, GPT-X, DALL-E) a nuevos dominios o escenarios para la comprensión, generación y edición interactiva de escenarios en un mundo físico o virtual.

Una aplicación de estas inteligencias infinitas en robótica es RoboGen Wang et al. (2023d). En este estudio, los autores presentan un sistema para ejecutar de forma autónoma ciclos de sugerencia de tareas, generación de entornos y aprendizaje de habilidades.

2.2 Inteligencia artificial para inteligencias con grandes modelos de base

Investigaciones recientes han demostrado que los modelos base a gran escala desempeñan un papel crucial en la creación de datos que actúan como puntos de referencia para determinar las acciones de un cuerpo inteligente dentro de las restricciones impuestas por el entorno. Algunos ejemplos son el uso de modelos base para la manipulación de robots Black et al. (2023); Ko et al. (2023) y la navegación Shah et al. (2023a); Zhou et al. (2023a). Para ilustrarlo, Black et al. emplean un modelo de edición de imágenes como planificador de alto nivel para generar imágenes de submetas futuras que guíen la estrategia de bajo nivel Black et al. (2023). Para la navegación robótica, Shah et al. proponen un sistema que emplea un modelo de macrolenguaje para reconocer puntos de referencia a partir de texto y un modelo de lenguaje visual para asociar estos puntos de referencia con entradas visuales, mejorando así la navegación mediante comandos de lenguaje natural Shah et al. (2023a).

También existe un interés creciente por generar movimientos humanos condicionados y adaptados a factores lingüísticos y ambientales. Se han propuesto varios sistemas de IA para generar movimientos y acciones personalizados a órdenes lingüísticas específicas Kim et al. (2023); Zhang et al. (2022); Tevet et al. (2022) y adaptados a una variedad de escenas 3D Wang et al. (2022a). Estas investigaciones ponen de relieve la creciente capacidad de los modelos generativos para mejorar la adaptabilidad y la capacidad de respuesta de las inteligencias artificiales en diversos escenarios.

2.2.1 Alucinaciones

Las inteligencias que generan texto suelen ser propensas a las alucinaciones, es decir, situaciones en las que el texto generado carece de sentido o no coincide con el contenido fuente proporcionado Raunak et al. (2021); Maynez et al. (2020). Las alucinaciones pueden dividirse en dos categorías.ilusión interiorresponder cantandoilusión externa Ji et al. (2023). Las ilusiones intrínsecas son las que contradicen el material fuente, mientras que las extrínsecas son los casos en los que el texto generado contiene información adicional no incluida inicialmente en el material fuente.

Algunas vías prometedoras para reducir la tasa de ilusiones en la generación de lenguaje incluyen el uso de la recuperación para mejorar la generación Lewis et al. (2020); Shuster et al. (2021) u otros enfoques que apoyan la salida de lenguaje natural a través de la recuperación de conocimiento externo Dziri et al. (2021); Peng et al. (2023). Normalmente, estos enfoques pretenden mejorar la generación del lenguaje recuperando otro material fuente y proporcionando mecanismos para comprobar si existen contradicciones entre la respuesta generada y el material fuente.

En el contexto de los sistemas corporales inteligentes multimodales, también se ha demostrado que los modelos de lenguaje visual producen alucinaciones Zhou et al. (2023b). Una causa común de alucinaciones en la generación de lenguaje basado en lo visual es una dependencia excesiva de la co-ocurrencia de objetos y pistas visuales en los datos de entrenamiento Rohrbach et al. (2018). Las inteligencias de IA que dependen exclusivamente de modelos de macrolenguaje o lenguaje visual preentrenados y utilizan un ajuste fino limitado específico del contexto pueden ser particularmente propensas a las alucinaciones porque dependen de la base de conocimiento interno del modelo preentrenado para generar acciones y pueden no comprender con precisión la dinámica del estado del mundo en el que se despliegan.

2.2.2 Prejuicios e inclusión

Las inteligencias artificiales basadas en grandes modelos lingüísticos (LLM) o grandes modelos multimodales (LMM) están sesgadas debido a múltiples factores inherentes a su diseño y proceso de formación. A la hora de diseñar estas inteligencias AI, debemos tener presente la inclusión y ser conscientes de las necesidades de todos los usuarios finales y partes interesadas. En el contexto de las inteligencias IA, lano exclusividad se refiere a las medidas y principios adoptados para garantizar que las respuestas e interacciones de los organismos inteligentes sean inclusivas, respetuosas y sensibles a una amplia gama de usuarios de orígenes diversos. A continuación expondremos los aspectos clave de la parcialidad y la inclusividad de los organismos inteligentes.

Datos de formaciónLos modelos subyacentes se entrenan a partir de grandes cantidades de datos textuales recogidos de Internet, incluidos libros, artículos, sitios web y otras fuentes textuales. Estos datos suelen reflejar prejuicios que existen en la sociedad humana, que el modelo puede aprender y reproducir inadvertidamente. Esto incluye estereotipos, prejuicios y opiniones sesgadas relacionadas con la raza, el sexo, la etnia, la religión y otros atributos personales. En particular, al entrenarse con datos de Internet, y a menudo utilizando sólo texto en inglés para el entrenamiento, los modelos aprenden implícitamente las normas culturales de las sociedades occidentales, educadas, industrializadas, ricas y democráticas (WEIRD) Henrich et al. ( 2010 ), que tienen una presencia desproporcionada en Internet. Sin embargo, es importante reconocer que los conjuntos de datos creados por humanos no pueden estar completamente libres de prejuicios, ya que a menudo reflejan prejuicios sociales, así como los de las personas que originalmente generaron y/o recopilaron los datos.
Prejuicios históricos y culturalesLos modelos de IA se entrenan con grandes conjuntos de datos de contenido diverso. Como tales, los datos de entrenamiento incluyen a menudo textos históricos o materiales de diferentes culturas. En particular, los datos de entrenamiento procedentes de fuentes históricas pueden contener lenguaje ofensivo o despectivo que represente las normas culturales, actitudes y prejuicios de una sociedad concreta. Esto puede dar lugar a modelos que perpetúen estereotipos anticuados o que no comprendan plenamente los cambios y matices culturales contemporáneos.
Limitaciones lingüísticas y contextualesLos modelos lingüísticos pueden tener dificultades para comprender y representar con precisión los matices del lenguaje, como la ironía, el humor o las alusiones culturales. Esto puede dar lugar a malentendidos o respuestas sesgadas en algunos casos. Además, muchos aspectos del lenguaje hablado no quedan reflejados en los datos de texto, lo que puede provocar una desconexión entre la forma en que los humanos entienden el lenguaje y la forma en que lo entienden los modelos.
Políticas y directricesLas inteligencias artificiales se rigen por políticas y directrices estrictas para garantizar la equidad y la inclusión. Por ejemplo, al generar imágenes, existen normas para diversificar la representación de personajes y evitar estereotipos asociados a la raza, el sexo y otros atributos.
sobregeneralizaciónEstos modelos tienden a generar respuestas basadas en patrones observados en los datos de entrenamiento. Esto puede llevar a la sobregeneralización y los modelos pueden generar respuestas que parecen estereotipar a ciertos grupos o hacer suposiciones generales.
Seguimiento y actualización continuosEl sistema de IA se supervisa y actualiza continuamente para abordar cualquier problema de parcialidad o inclusión que pueda surgir. Los comentarios de los usuarios y la investigación en curso sobre ética de la IA desempeñan un papel fundamental en este proceso.
Ampliar la visión dominanteComo los datos de entrenamiento suelen contener más contenidos de la cultura o el grupo dominante, el modelo puede estar más sesgado a favor de estas opiniones y, por tanto, puede subestimar o distorsionar las opiniones de los grupos minoritarios.
Diseño ético e integradorLas herramientas de IA deben diseñarse teniendo en cuenta consideraciones éticas y la inclusión como principios básicos. Esto incluye respetar las diferencias culturales, promover la diversidad y garantizar que la IA no perpetúe estereotipos perjudiciales.
Guía del usuarioLos usuarios también reciben instrucciones sobre cómo interactuar con la IA de forma que se fomente la inclusión y el respeto. Esto incluye evitar peticiones que puedan dar lugar a resultados sesgados o inapropiados. Además, puede ayudar a mitigar situaciones en las que el modelo aprenda material perjudicial de las interacciones de los usuarios.

A pesar de estas medidas, persisten los sesgos en las inteligencias de IA. Los esfuerzos actuales en investigación y desarrollo de IA para Intelligentsia se centran en reducir aún más estos sesgos y mejorar la inclusividad y equidad de los sistemas de IA para Intelligentsia. Esfuerzos para reducir los sesgos:

Datos de formación diversos e inclusivos: Se están realizando esfuerzos para incluir fuentes más diversas e inclusivas en los datos de formación.
Detección y corrección de sesgosLa investigación en curso se centra en la detección y corrección de sesgos en las respuestas de los modelos.
Directrices y políticas éticasLos modelos suelen estar sujetos a directrices y políticas éticas destinadas a mitigar los prejuicios y garantizar interacciones respetuosas e integradoras.
Representación diversaGarantizar que los contenidos generados o las respuestas proporcionadas por las inteligencias artificiales representen una amplia gama de experiencias, culturas, etnias e identidades humanas. Esto es especialmente relevante en escenarios como la generación de imágenes o la construcción de narrativas.
Mitigación de sesgosTrabajar activamente para reducir los prejuicios en las respuestas de IA. Esto incluye los prejuicios relacionados con la raza, el sexo, la edad, la discapacidad, la orientación sexual y otras características personales. El objetivo es ofrecer una respuesta justa y equilibrada, no perpetuar estereotipos o prejuicios.
Sensibilidad cultural: Los diseños de AI tienen en cuenta las diferencias culturales y reconocen y respetan la diversidad de normas, prácticas y valores culturales. Esto incluye comprender y responder adecuadamente a las referencias y matices culturales.
accesibilidadGarantizar que las inteligencias artificiales sean accesibles a usuarios con distintas capacidades, incluidos los discapacitados. Esto puede implicar la incorporación de características que faciliten la interacción a personas con deficiencias visuales, auditivas, motoras o cognitivas.
Inclusión lingüísticaProporcionar soporte para múltiples idiomas y dialectos para una base de usuarios global y ser sensible a los matices y variaciones intralingüísticos Liu et al. ( 2023b ).
Interacción ética y respetuosaLa inteligencia está programada para interactuar de forma ética y respetuosa con todos los usuarios, evitando respuestas que puedan considerarse ofensivas, dañinas o irrespetuosas.
Comentarios de los usuarios y adaptaciónIncorporar las opiniones de los usuarios para mejorar continuamente el carácter integrador y la eficacia de las inteligencias artificiales. Esto incluye aprender de las interacciones para comprender y atender mejor a una base de usuarios diversa.
Cumplimiento de las directrices de inclusiónCumplir las directrices y normas establecidas para la inclusión de las inteligencias artificiales, que a menudo son fijadas por grupos industriales, comités de ética u organismos reguladores.

A pesar de estos esfuerzos, es importante ser consciente de la posibilidad de sesgos en las respuestas y pensar de forma crítica a la hora de interpretarlas. Las continuas mejoras en la tecnología de las inteligencias de IA y las prácticas éticas pretenden reducir estos sesgos con el tiempo. Cuerpos inteligentes Uno de los objetivos generales de la inclusión de la IA es crear un cuerpo inteligente que sea respetuoso y accesible para todos los usuarios, independientemente de su origen o identidad.

2.2.3 Privacidad y uso de los datos

Una consideración ética clave para las inteligencias de IA implica comprender cómo estos sistemas procesan, almacenan y potencialmente recuperan los datos de los usuarios. A continuación analizamos algunos aspectos clave:

Recogida, uso y finalidad de los datos.

Al utilizar los datos de los usuarios para mejorar el rendimiento de los modelos, los desarrolladores de modelos tienen acceso a los datos recopilados por las inteligencias artificiales en producción y al interactuar con los usuarios. Algunos sistemas permiten a los usuarios ver sus datos a través de su cuenta de usuario o haciendo una solicitud a un proveedor de servicios. Es importante saber qué datos recogen las inteligencias artificiales durante estas interacciones. Estos datos pueden incluir entradas de texto, patrones de uso del usuario, preferencias personales y, a veces, información personal más delicada. Los usuarios también deben entender cómo se utilizan los datos recogidos de sus interacciones. Si, por alguna razón, la IA tiene información incorrecta sobre un individuo o grupo concreto, debe haber un mecanismo para que el usuario ayude a corregir el error una vez que se haya reconocido. Esto es importante para la precisión y el respeto de todos los usuarios y grupos. Entre los usos habituales de la recuperación y el análisis de los datos de los usuarios figuran la mejora de la interacción con ellos, la personalización de las respuestas y la optimización de los sistemas. Es importante que los desarrolladores se aseguren de que los datos no se utilizan para fines para los que los usuarios no han dado su consentimiento (por ejemplo, marketing no solicitado).

Almacenamiento y seguridad.

Los desarrolladores deben saber dónde se almacenan los datos de interacción de los usuarios y las medidas de seguridad que se aplican para protegerlos de accesos no autorizados o de su divulgación. Esto incluye el cifrado, los servidores seguros y los protocolos de protección de datos. Es importante determinar si los datos del cuerpo inteligente se comparten con terceros y en qué condiciones. Esto debe ser transparente y normalmente requiere el consentimiento del usuario.

Supresión y conservación de datos.

También es importante que los usuarios entiendan cuánto tiempo se almacenan los datos de los usuarios y cómo pueden solicitar que se eliminen sus datos. Muchas leyes de protección de datos otorgan a los usuarios el derecho a ser olvidados, lo que significa que pueden solicitar que se eliminen sus datos.AI Intelligentsia debe cumplir leyes de protección de datos como el GDPR de la UE o la CCPA de California. Estas leyes regulan las prácticas de tratamiento de datos y los derechos de los usuarios sobre sus datos personales.

Portabilidad de datos y política de privacidad.

Además, los desarrolladores deben crear una política de privacidad para las inteligencias artificiales que documente y explique a los usuarios cómo se tratarán sus datos. Esta política debe detallar la recogida, el uso y el almacenamiento de los datos, así como los derechos de los usuarios. Los desarrolladores deben asegurarse de obtener el consentimiento del usuario para la recopilación de datos, especialmente para la información sensible. Por lo general, los usuarios pueden optar por excluirse o restringir los datos que facilitan. En algunas jurisdicciones, los usuarios pueden incluso tener derecho a solicitar una copia de sus datos en un formato que pueda transferirse a otro proveedor de servicios.

Anonimización.

En el caso de los datos utilizados en análisis más amplios o en el entrenamiento de IA, lo ideal sería anonimizarlos para proteger las identidades individuales. Los desarrolladores deben comprender cómo sus inteligencias artificiales recuperan y utilizan los datos históricos de los usuarios durante las interacciones. Esto puede ser para la personalización o para mejorar la relevancia de una respuesta.

En resumen, entender la privacidad de los datos para las inteligencias de IA incluye comprender cómo se recopilan, utilizan, almacenan y protegen los datos de los usuarios, y garantizar que los usuarios conozcan sus derechos de acceso, corrección y eliminación de sus datos. Comprender los mecanismos de recuperación de datos de los usuarios y de las inteligencias de IA también es fundamental para comprender plenamente la privacidad de los datos.

2.2.4 Interpretabilidad y descriptividad

Aprendizaje por imitación → desacoplamiento

Las inteligencias suelen entrenarse mediante bucles de retroalimentación continua en el aprendizaje por refuerzo (RL) o el aprendizaje por imitación (IL), partiendo de una estrategia inicializada aleatoriamente. Sin embargo, este enfoque se enfrenta a cuellos de botella a la hora de obtener recompensas iniciales en entornos desconocidos, especialmente cuando las recompensas son escasas o sólo están disponibles al final de interacciones de pasos largos. Por lo tanto, una solución superior es utilizar inteligencias de memoria infinita entrenadas mediante aprendizaje por imitación, que pueden aprender estrategias a partir de datos de expertos, lo que conduce a una mejor exploración y utilización del espacio del entorno no visto, así como de las infraestructuras emergentes, como se muestra en la figura 3. Con características expertas para ayudar a las inteligencias a explorar y explotar mejor los espacios ambientales invisibles. La IA corporal inteligente puede aprender estrategias y procesos de nuevos paradigmas directamente a partir de datos expertos.

El aprendizaje por imitación tradicional permite a las inteligencias aprender estrategias imitando el comportamiento de un demostrador experto. Sin embargo, aprender directamente las estrategias de un experto puede no ser siempre el mejor enfoque, ya que el cuerpo inteligente puede no generalizar bien a situaciones no vistas. Para resolver este problema, proponemos aprender un cuerpo inteligente con pistas contextuales o funciones de recompensa implícitas que capten aspectos clave del comportamiento del experto, como se muestra en la Figura 3. Esto equipa al cuerpo inteligente de infinito-método con una función de recompensa implícita. Esto equipa a las inteligencias de memoria infinita con datos de comportamiento del mundo físico aprendidos de demostraciones de expertos para la ejecución de tareas. Esto ayuda a superar los inconvenientes del aprendizaje por imitación existente, como la necesidad de grandes cantidades de datos de expertos y el potencial de error en tareas complejas. La idea clave de la IA del Cuerpo Inteligente tiene dos componentes: 1) el Cuerpo Inteligente Infinito, que recoge las demostraciones de expertos del mundo físico como pares de estado-acción, y 2) el entorno virtual del Generador de Imitación del Cuerpo Inteligente. El Cuerpo Inteligente de Imitación genera acciones que imitan el comportamiento del experto, mientras que el Cuerpo Inteligente aprende una política de asignación de estados a acciones reduciendo la función de pérdida de la diferencia entre las acciones del experto y las acciones generadas por la política de aprendizaje.

Desacoplamiento → Generalización

En lugar de basarse en funciones de recompensa específicas de la tarea, el cuerpo inteligente aprende de demostraciones de expertos que proporcionan un conjunto diverso de pares estado-acción que cubren varios aspectos de la tarea. A continuación, el cuerpo inteligente aprende una estrategia para asignar estados a acciones imitando el comportamiento del experto. La disociación en el aprendizaje por imitación se refiere a la separación del proceso de aprendizaje de la función de recompensa específica de la tarea, permitiendo así que las estrategias se generalicen a través de diferentes tareas sin depender explícitamente de la función de recompensa específica de la tarea. Mediante el desacoplamiento, un inteligente puede aprender de las demostraciones de los expertos y aprender una estrategia que pueda adaptarse a diversas situaciones. El desacoplamiento permite el aprendizaje por transferencia, en el que una estrategia aprendida en un dominio puede adaptarse a otros con un ajuste mínimo. Al aprender una estrategia generalizada que no está vinculada a una función de recompensa específica, un organismo inteligente puede utilizar los conocimientos que ha adquirido en una tarea para rendir bien en otras tareas relacionadas. Como el organismo inteligente no depende de una función de recompensa específica, puede adaptarse a los cambios en la función de recompensa o en el entorno sin necesidad de un reentrenamiento exhaustivo. Esto hace que las estrategias aprendidas sean más robustas y generalizables en distintos entornos. En este contexto, la disociación se refiere a la separación de dos tareas en el proceso de aprendizaje: el aprendizaje de la función de recompensa y el aprendizaje de la política óptima.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 3: Ejemplo de un mecanismo de interacción emergente que utiliza inteligencias para identificar texto relacionado con imágenes a partir de texto candidato. La tarea consiste en integrar información del mundo exterior utilizando inteligencias de IA multimodales de la red y muestras de interacción de conocimiento etiquetadas manualmente.

Generalización → comportamiento emergente

La generalización explica cómo pueden surgir propiedades o comportamientos emergentes a partir de componentes o reglas más simples. La idea clave es identificar los elementos básicos o reglas que controlan el comportamiento del sistema, como neuronas individuales o algoritmos básicos. Así, observando cómo estos componentes o reglas simples interactúan entre sí. Las interacciones de estos componentes conducen a menudo a la aparición de comportamientos complejos que no pueden predecirse examinando únicamente los componentes individuales. La generalización a través de distintos niveles de complejidad permite al sistema aprender principios genéricos que se aplican a estos niveles, dando lugar a propiedades emergentes. Esto permite al sistema adaptarse a nuevas situaciones, lo que demuestra la aparición de comportamientos más complejos a partir de reglas más simples. Además, la capacidad de generalizar entre distintos niveles de complejidad facilita la transferencia de conocimientos de un dominio a otro, lo que ayuda a que surjan comportamientos complejos en nuevos entornos a medida que el sistema se adapta.

2.2.5 Mejora del razonamiento

La capacidad de razonamiento de las inteligencias artificiales reside en su habilidad para interpretar, predecir y responder basándose en datos de entrada y de entrenamiento. Aunque estas capacidades son avanzadas y están mejorando, es importante reconocer sus limitaciones y el impacto de los datos subyacentes sobre los que se entrenan. En particular, en el contexto de los grandes modelos lingüísticos (LLM), se refiere a su capacidad para sacar conclusiones, hacer predicciones y generar respuestas basadas en los datos con los que se han entrenado y en las entradas que reciben.El aumento del razonamiento en las inteligencias IA se refiere al uso de herramientas, técnicas o datos adicionales para aumentar las capacidades de razonamiento natural de una IA con el fin de mejorar su rendimiento, precisión y utilidad. Esto es especialmente importante en escenarios complejos de toma de decisiones o cuando se trata de contenidos matizados o especializados. A continuación se enumeran fuentes especialmente importantes de mejora del razonamiento:

Riqueza de datos.

Incorporar fuentes de datos adicionales (a menudo externas) para proporcionar más contexto o antecedentes puede ayudar a las inteligencias IA a hacer inferencias más informadas, especialmente en áreas en las que sus datos de entrenamiento pueden ser limitados. Por ejemplo, las inteligencias artificiales pueden inferir significados a partir del contexto de un diálogo o un texto. Analizan la información dada y la utilizan para comprender la intención y los detalles relevantes de la consulta de un usuario. Estos modelos son buenos reconociendo patrones en los datos. Utilizan esta capacidad para inferir información sobre el lenguaje, el comportamiento del usuario u otros fenómenos relevantes basándose en patrones aprendidos durante el entrenamiento.

Mejora algorítmica.

Mejorar los algoritmos subyacentes de la IA para mejorar el razonamiento. Esto puede implicar el uso de modelos de aprendizaje automático más avanzados, la integración de distintos tipos de IA (por ejemplo, combinar el procesamiento del lenguaje natural (PLN) con el reconocimiento de imágenes) o la actualización de algoritmos para manejar mejor tareas complejas. El razonamiento en el modelado del lenguaje implica comprender y generar el lenguaje humano. Esto incluye captar el tono, la intención y los matices de las distintas estructuras lingüísticas.

Human in the Loop (HITL).

Involucrar a humanos para aumentar el razonamiento de la IA puede ser especialmente útil en áreas en las que el juicio humano es crítico (por ejemplo, consideraciones éticas, tareas creativas o escenarios ambiguos). Los humanos pueden orientar, corregir errores u ofrecer ideas que la inteligencia no puede deducir por sí sola.

Integración de información en tiempo real.

El uso de información en tiempo real procedente del usuario o del entorno para aumentar el razonamiento es otro enfoque prometedor para mejorar el rendimiento durante el razonamiento. Por ejemplo, una IA puede ajustar sus recomendaciones basándose en las respuestas del usuario en tiempo real o en las condiciones cambiantes de un sistema dinámico. Alternativamente, si la IA realiza una acción que viola ciertas reglas en un entorno simulado, se puede proporcionar información dinámica a la IA para ayudarla a corregirse a sí misma.

Transferencia de conocimientos interdisciplinarios.

Utilizar conocimientos o modelos de un ámbito para mejorar el razonamiento en otro resulta especialmente útil cuando se generan resultados en disciplinas especializadas. Por ejemplo, las técnicas desarrolladas para la traducción de idiomas podrían aplicarse a la generación de códigos, o los conocimientos de diagnóstico médico podrían mejorar el mantenimiento predictivo de la maquinaria.

Personalización para casos de uso específicos.

Adaptar las capacidades de razonamiento de una IA a una aplicación o sector específicos puede implicar entrenar a la IA en conjuntos de datos especializados o ajustar su modelo para que se adapte mejor a una tarea concreta, como el análisis jurídico, el diagnóstico médico o la previsión financiera. Dado que el lenguaje o la información específicos de un dominio pueden contrastar con el lenguaje de otros dominios, puede ser beneficioso afinar las inteligencias en conocimientos específicos del dominio.

Consideraciones éticas y de sesgo.

Es importante garantizar que el proceso de mejora no introduzca nuevos sesgos o problemas éticos. Para ello, hay que tener muy en cuenta el impacto sobre la imparcialidad y la transparencia de las fuentes de datos adicionales o de los nuevos algoritmos de mejora del razonamiento. En ocasiones, las inteligencias artificiales deben responder a consideraciones éticas a la hora de razonar, especialmente sobre temas delicados. Esto incluye evitar estereotipos perjudiciales, respetar la privacidad y garantizar la equidad.

Aprendizaje y adaptación continuos.

Actualice y perfeccione periódicamente las capacidades de la IA para mantenerse al día de los nuevos avances, los cambios en el panorama de los datos y la evolución de las necesidades de los usuarios.

En resumen, el aumento del razonamiento en las inteligencias artificiales implica métodos para aumentar sus capacidades de razonamiento natural con datos adicionales, algoritmos mejorados, aportaciones humanas y otras técnicas. Dependiendo del caso de uso, estas mejoras suelen ser fundamentales para gestionar tareas complejas y garantizar la precisión de los resultados de las inteligencias.

2.2.6 Reglamento

Recientemente, se han producido avances significativos en la IA corporal inteligente y su integración con sistemas corporales ha abierto nuevas posibilidades para interactuar con cuerpos inteligentes a través de experiencias más inmersivas, dinámicas y atractivas. Para acelerar este proceso y aliviar la ardua tarea que supone el desarrollo de la IA corporal inteligente, proponemos el desarrollo de un canal de interacción corporal inteligente de nueva generación basado en la IA. Desarrollar un sistema de colaboración hombre-máquina que permita a humanos y máquinas comunicarse e interactuar de forma significativa. El sistema podría aprovechar las capacidades conversacionales y la amplia gama de acciones de un Modelo de Lenguaje Amplio (LLM) o un Modelo de Lenguaje Visual (VLM) para hablar con los actores humanos e identificar sus necesidades. A continuación, realizaría las acciones adecuadas para ayudar al jugador humano según fuera necesario.

Cuando se utilizan modelos lingüísticos amplios (LLM)/modelos lingüísticos visuales (VLM) para sistemas de colaboración humano-robot, es importante tener en cuenta que estos modelos funcionan como cajas negras y producen resultados impredecibles. Esta incertidumbre puede llegar a ser crítica en entornos físicos (por ejemplo, manejando un robot real). Una forma de abordar este reto es limitar el enfoque del Modelo de Lenguaje Amplio (LLM)/Modelo de Lenguaje Visual (VLM) mediante la ingeniería de pistas. Por ejemplo, cuando se planifican tareas robóticas basadas en instrucciones, se ha observado que proporcionar información ambiental en las pistas produce resultados más estables que basarse únicamente en el texto, como en el caso de Gramopadhye y Szafir (2022). Este informe está respaldado por la teoría del marco de IA de Minsky Minsky (1975), que sugiere que el espacio del problema que debe resolver el Modelo de Lenguaje Amplio (LLM)/Modelo de Lenguaje Visual (VLM) está definido por la instrucción dada. Otro enfoque consiste en diseñar las instrucciones de forma que el Modelo de Lenguaje Extenso (LLM)/Modelo de Lenguaje Visual (VLM) contenga un texto explicativo que permita al usuario comprender en qué se centra o qué reconoce el modelo. Además, la implementación de un nivel superior que permita la validación y modificación previa a la ejecución guiada por el ser humano puede facilitar el funcionamiento de los sistemas que trabajan bajo dicha guía (Figura 4).

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 4: Sistema de enseñanza de robótica desarrollado en Wake et al. (2023c). (Izquierda) Flujo de trabajo del sistema. El proceso consta de tres pasos: planificación de tareas, que ChatGPT Planificación de tareas robóticas basadas en instrucciones e información del entorno; Demostración, en la que el usuario demuestra secuencias de acciones visualmente. Todos los pasos son revisados por el usuario y, si alguno falla o presenta defectos, pueden revisarse los pasos anteriores según sea necesario. (derecha) Una aplicación web que permite cargar datos de demostración e interactuar entre el usuario y ChatGPT.

2.3 Inteligencia Artificial para capacidades emergentes

A pesar de la creciente adopción de sistemas de inteligencia artificial interactivos, la mayoría de los enfoques propuestos siguen enfrentándose a retos en términos de rendimiento de la generalización en entornos o escenarios desconocidos. Las prácticas actuales de modelización exigen que los desarrolladores preparen grandes conjuntos de datos para cada dominio con el fin de afinar/preentrenar los modelos; sin embargo, este proceso es costoso o incluso imposible si el dominio es nuevo. Para abordar este problema, construimos inteligencias interactivas que utilizan la memoria de conocimientos de modelos base genéricos (ChatGPT, Dall-E, GPT-4, etc.) para nuevos escenarios, en particular para generar espacios de colaboración entre humanos e inteligencias. Identificamos un mecanismo emergente -que denominamos realidad mixta con interacciones conocimiento-razonamiento- que facilita la colaboración con humanos para resolver tareas desafiantes en entornos complejos del mundo real, y la capacidad de explorar entornos no visibles para adaptarse a la realidad virtual. Para este mecanismo, las inteligencias aprenden i) micro-respuestas a través de las modalidades: recopilando conocimiento individual relevante para cada tarea de interacción a partir de fuentes de red explícitas (por ejemplo, para comprender escenarios no vistos) e infiriéndolo implícitamente a partir de salidas de modelos preentrenados; ii) macro-comportamientos de forma independiente de la realidad: refinando las dimensiones y los patrones de interacción en los dominios lingüístico y multimodal y razonando sobre el papel de las representaciones, sobre determinadas variables objetivo, sobre la realidad mixta y sobre la diversidad de influencias de la información colaborativa en el Gran Modelo Lingüístico (LLM) para realizar cambios. Investigamos la tarea de las sinergias de interacción guiadas por el conocimiento para la generación de escenarios en colaboración con varios modelos OpenAI y mostramos cómo el sistema Interactive Intelligentsia puede mejorar aún más los prometedores resultados de los modelos base a gran escala en nuestra configuración. Integra y mejora la profundidad de generalización, el conocimiento y la interpretabilidad de sistemas complejos de IA adaptativa.

3 Cuerpo inteligente Paradigma de la IA

En esta sección, analizamos un nuevo paradigma y marco para el entrenamiento de IA para inteligencias. Esperamos alcanzar varios objetivos con el marco propuesto:

-
Utilizando los modelos y estrategias de preentrenamiento existentes, nuestras inteligencias son guiadas eficazmente para comprender modalidades importantes, como las entradas textuales o visuales.
-
Apoyar una capacidad adecuada de planificación de misiones a largo plazo.
-
Introducir un marco mnemotécnico que permita codificar el aprendizaje y recuperarlo posteriormente.
-
Permite utilizar la retroalimentación del entorno para entrenar eficazmente a las inteligencias para que aprendan qué acciones deben realizar.

En la figura 5 mostramos un diagrama de alto nivel de la neointeligentsia, en el que se esbozan los submódulos importantes de un sistema de este tipo.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Fig. 5: Nuestra propuesta de nuevo paradigma de cuerpo inteligente para inteligencias multimodales de propósito general. Como se muestra, hay 5 módulos principales: 1) entorno y percepción, incluida la planificación de tareas y la observación de habilidades; 2) aprendizaje corporal inteligente; 3) memoria; 4) acción corporal inteligente; y 5) cognición.

3.1 Grandes modelos lingüísticos y modelos lingüísticos visuales

Podemos utilizar un Modelo de Lenguaje Extenso (LLM) o un Modelo de Lenguaje Visual (VLM) para crear los componentes de un cuerpo inteligente, como se muestra en la Figura 5. En particular, los Modelos de Lenguaje Extenso han demostrado un buen rendimiento en la planificación de tareas Gong et al. En concreto, se ha demostrado que los modelos de lenguaje de gran tamaño funcionan bien en la planificación de tareas Gong et al. (2023a), contienen una gran cantidad de conocimiento del mundo Yu et al. (2023b) y muestran un razonamiento lógico impresionante Creswell et al. (2022). Además, los modelos de lenguaje visual como CLIP Radford et al. (2021) proporcionan un codificador visual de propósito general alineado con el lenguaje, además de ofrecer capacidades de reconocimiento visual de muestra cero. Por ejemplo, los modelos multimodales de código abierto más avanzados, como LLaVA Liu et al. (2023c) e InstructBLIP Dai et al. (2023), se basan en el modelo CLIP congelado como codificador visual.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 6: Mostramos el paradigma actual para crear inteligencias de IA multimodales combinando grandes modelos lingüísticos (LLM) con grandes modelos visuales (LVM). Normalmente, estos modelos reciben entradas visuales o lingüísticas y utilizan modelos visuales y lingüísticos preentrenados y congelados para aprender a conectar y tender puentes entre subredes más pequeñas de modalidades. Algunos ejemplos son Flamingo Alayrac et al. (2022), BLIP-2 Li et al. (2023c), InstructBLIP Dai et al. (2023) y LLaVA Liu et al.

3.2 Definición de transformador de cuerpo inteligente

Además de utilizar modelos de macrolenguaje congelado y modelos de lenguaje visual como inteligencias de IA, se puede utilizar una única inteligencia Transformador modelo, que combina Ficha y lingüístico Token como inputs, de forma similar a Gato Reed et al. (2022). Además de visual y lingüístico, añadimos un tercer tipo genérico de entrada, que denotamos comocuerpo inteligente Ficha: Conceptualmente, una ficha de cuerpo inteligente se utiliza para reservar un subespacio específico para los comportamientos del cuerpo inteligente en el espacio de entrada y salida de un modelo. Para robots o juegos, esto puede representarse como el espacio de acción de entrada del controlador. El token de cuerpo inteligente también puede utilizarse cuando se entrena a un cuerpo inteligente para que utilice una herramienta específica, como un modelo de generación o edición de imágenes, o para otras llamadas a la API, como se muestra en la figura 7, donde podemos combinar el token de cuerpo inteligente con el token visual y lingüístico para generar una interfaz unificada para el entrenamiento de IA multimodal de cuerpo inteligente. El uso del Transformador de Cuerpo Inteligente tiene varias ventajas sobre el uso de un gran modelo lingüístico propietario como cuerpo inteligente. En primer lugar, el modelo puede personalizarse fácilmente para tareas muy específicas del cuerpo inteligente que pueden ser difíciles de representar en lenguaje natural (por ejemplo, entradas de controlador u otras acciones específicas). Así, las inteligencias pueden aprender de las interacciones con el entorno y de los datos específicos del dominio para mejorar su rendimiento. En segundo lugar, al acceder a las probabilidades de un token de un organismo inteligente, puede ser más fácil entender por qué un modelo realiza o no una acción concreta. En tercer lugar, algunos ámbitos (por ejemplo, la sanidad y el derecho) tienen requisitos estrictos en materia de privacidad de datos. Por último, un transformador de organismo inteligente relativamente pequeño puede resultar mucho más barato que un modelo de lenguaje propietario de mayor tamaño.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Fig. 7: Modelo Transformer multimodal unificado para inteligencias. En lugar de conectar submódulos congelados y utilizar los modelos base existentes como bloques de construcción, proponemos un paradigma unificado de formación de extremo a extremo para sistemas corporales inteligentes. Podemos seguir inicializando submódulos utilizando el gran modelo de lenguaje y el gran modelo de visión de la figura 6, pero también podemos utilizar tokens SmartBody, que son tokens especializados utilizados para entrenar modelos que realicen comportamientos SmartBody en dominios específicos (por ejemplo, robótica.) Para más detalles sobre los tokens SmartBody, véase la sección 3.2.

3.3 Creación de un transformador

Como se muestra en la figura 5, podemos utilizar el nuevo paradigma del cuerpo inteligente con cuerpos inteligentes guiados por modelos de lenguaje de gran tamaño y modelos de lenguaje visual, y utilizar los datos generados por el modelo de base de gran tamaño para entrenar al modelo transformador del cuerpo inteligente para que aprenda a realizar objetivos específicos. En el proceso, los modelos de cuerpo inteligente se entrenan para adaptarse específicamente a tareas y dominios concretos. Este enfoque permite aprovechar características y conocimientos aprendidos de modelos base preexistentes. A continuación mostramos una visión simplificada del proceso en dos pasos:

Definir objetivos dentro del dominio.

Para entrenar a un transformador de cuerpo inteligente, es necesario definir explícitamente el espacio de objetivos y acciones del cuerpo inteligente en cada entorno concreto. Esto incluye identificar qué tareas o acciones específicas deben realizar las inteligencias y asignar tokens de inteligencia únicos a cada tarea o acción. Además, cualquier regla o procedimiento automatizado que pueda utilizarse para reconocer la finalización satisfactoria de una tarea puede aumentar significativamente la cantidad de datos disponibles para el entrenamiento. En caso contrario, se necesitarán datos generados por el modelo base o datos anotados manualmente para entrenar el modelo. Una vez recogidos los datos y evaluado el rendimiento de las inteligencias, puede iniciarse el proceso de mejora continua.

Mejora continua.

La supervisión continua del rendimiento del modelo y la recogida de reacciones son pasos fundamentales del proceso. Los comentarios deben utilizarse para perfeccionar y actualizar el modelo. También es vital garantizar que el modelo no perpetúe resultados sesgados o poco éticos. Para ello es necesario examinar los datos de entrenamiento, comprobar periódicamente si hay sesgos en los resultados y, si es necesario, entrenar el modelo para identificar y evitar los sesgos. Una vez que el modelo alcanza un rendimiento satisfactorio, puede desplegarse en la aplicación prevista. La supervisión continua sigue siendo fundamental para garantizar que el modelo funciona como se espera y facilitar los ajustes necesarios. Para más detalles sobre este proceso, las fuentes de datos de entrenamiento y el aprendizaje continuo de la IA para las inteligencias, véase la sección 8.

4 Cuerpo de Inteligencia AI Aprendizaje

4.1 Estrategias y mecanismos

Las estrategias para la IA interactiva en distintos dominios extienden el paradigma de utilizar inteligencias entrenadas que buscan activamente recoger comentarios del usuario, información sobre acciones, conocimientos útiles para la generación e interacción para invocar grandes modelos base. A veces, no es necesario volver a entrenar el gran modelo de lenguaje/modelo de lenguaje visual, y mejoramos el rendimiento de las inteligencias proporcionándoles pistas contextuales mejoradas en el momento de la prueba. Por otro lado, siempre se trata de modelar las interacciones conocimiento/razonamiento/sentido común/razonamiento mediante una combinación de sistemas ternarios: un sistema realiza la recuperación de conocimientos a partir de consultas multimodelo, el segundo realiza la generación de interacciones a partir de las inteligencias pertinentes y el último entrena de forma mejorada nuevos entrenamientos o preentrenamientos autosupervisados ricos en información, incluido el aprendizaje por refuerzo o el aprendizaje por imitación.

4.1.1 Refuerzo del aprendizaje (RL)

Existe una larga historia de utilización del aprendizaje por refuerzo (RL) para entrenar inteligencias interactivas que muestren un comportamiento inteligente. El aprendizaje por refuerzo es un método de aprendizaje de la relación óptima entre estados y acciones basado en las recompensas (o castigos) recibidas por sus acciones. El aprendizaje por refuerzo es un marco altamente escalable que se ha aplicado a una amplia gama de aplicaciones, entre ellas la robótica. Sin embargo, suele enfrentarse a varios problemas de clasificación y los grandes modelos de lenguaje/visual han demostrado su potencial para mitigar o superar algunas de estas dificultades:

Diseño de recompensasLa eficacia del aprendizaje de estrategias depende en gran medida del diseño de la función de recompensa. El diseño de una función de recompensa requiere no sólo una comprensión del algoritmo de aprendizaje por refuerzo, sino también un conocimiento profundo de la naturaleza de la tarea, por lo que suele ser necesario diseñar la función basándose en la experiencia de expertos. Varios estudios han explorado el uso de grandes modelos de lenguaje/modelos de lenguaje visual para diseñar funciones de recompensa Yu et al. (2023a); Katara et al. (2023); Ma et al.
Recogida de datos y eficacia Dada su naturaleza exploratoria, el aprendizaje de estrategias basado en el aprendizaje por refuerzo requiere grandes cantidades de datos Padalkar et al. (2023). La necesidad de grandes cantidades de datos se hace especialmente evidente cuando la estrategia implica la gestión de secuencias largas o la integración de operaciones complejas. Esto se debe a que estos escenarios requieren una toma de decisiones más matizada y el aprendizaje de una gama más amplia de situaciones. En estudios recientes, se han realizado esfuerzos por mejorar la generación de datos para apoyar el aprendizaje de estrategias Kumar et al. (2023); Du et al. Además, en algunos estudios, estos modelos se han integrado en funciones de recompensa para mejorar el aprendizaje de estrategias Sontakke et al. (2023). Paralelamente a estos avances, otro estudio se centró en lograr la eficiencia de los parámetros en el proceso de aprendizaje utilizando modelos de lenguaje visual Tang et al. (2023); Li et al. (2023d) y un gran modelo de lenguaje Shi et al. (2023).
paso longitudinal En cuanto a la eficiencia de los datos, el aprendizaje por refuerzo se vuelve más difícil a medida que aumenta la longitud de las secuencias de acciones. Esto se debe a la relación poco clara entre acciones y recompensas (conocida como el problema de la asignación de créditos), así como al aumento del número de estados que hay que explorar, lo que requiere una cantidad significativa de tiempo y datos. Un enfoque típico para tareas largas y complejas es descomponerlas en una serie de submetas y aplicar estrategias preentrenadas para resolver cada submeta (por ejemplo, Takamatsu et al. (2022)). Esta idea pertenece al marco Task and Motion Planning (TAMP) de Garrett et al. (2021). La planificación de tareas y movimientos consta de dos componentes principales: la planificación de tareas, que implica la identificación de secuencias de operaciones de alto nivel, y la planificación de movimientos, que implica la búsqueda de trayectorias físicamente coherentes y libres de colisiones para alcanzar los objetivos del plan de tareas. Los modelos de lenguaje de gran tamaño son muy adecuados para la planificación de tareas y movimientos, y las investigaciones recientes han adoptado normalmente el enfoque de que la planificación de tareas de alto nivel se lleva a cabo utilizando modelos de lenguaje de gran tamaño, mientras que el control de bajo nivel se aborda mediante estrategias basadas en el aprendizaje por refuerzo Xu et al. (2023); Sun et al. (2023a); Li et al. (2023b); Parakh et al. (2023b). Las características avanzadas de los grandes modelos de lenguaje les permiten descomponer eficazmente instrucciones abstractas en submetas Wake et al. (2023c), contribuyendo así a mejorar la comprensión del lenguaje en los sistemas robóticos.

4.1.2 Aprendizaje por imitación (AI)

Mientras que el aprendizaje por refuerzo pretende entrenar estrategias basadas en la exploración de comportamientos y la maximización de las recompensas de interactuar con el entorno, el aprendizaje por imitación (AI) pretende utilizar datos de expertos para imitar los comportamientos de inteligencias experimentadas o expertos. Por ejemplo, uno de los principales marcos para el aprendizaje basado en la imitación en robótica es la clonación conductual (BC). La clonación conductual es un método de entrenamiento de un robot para imitar las acciones de un experto mediante la copia directa. En este enfoque, se graban las acciones de un experto en la realización de una tarea específica y se entrena al robot para que reproduzca estas acciones en situaciones similares. Los enfoques recientes basados en la clonación de comportamientos suelen combinar técnicas de grandes modelos de lenguaje/modelos de lenguaje visual, que permiten modelos más avanzados de extremo a extremo. Por ejemplo, Brohan et al. presentan RT-1 Brohan et al. (2022) y RT-2 Brohan et al. (2023), modelos basados en Transformer que toman una serie de imágenes y lenguaje como entrada y secuencias de salida de acciones de la base y el brazo. Estos modelos muestran un alto rendimiento de generalización debido a que han sido entrenados con una gran cantidad de datos de entrenamiento.

4.1.3 RGB tradicional

El aprendizaje del comportamiento corporal inteligente mediante la entrada de imágenes ha sido de interés durante muchos años Mnih et al. (2015). El reto inherente al uso de datos RGB es la catástrofe dimensional. Para abordar este problema, los investigadores han utilizado más datos Jang et al. (2022); Ha et al. (2023) o han introducido un sesgo inductivo en el diseño del modelo para mejorar la eficiencia de la muestra. En particular, los autores integran estructuras 3D en la arquitectura del modelo utilizado para la manipulación Zeng et al. (2021); Shridhar et al. (2023); Goyal et al. (2023); James y Davison (2022). Para la navegación robótica, los autores Chaplot et al. (2020a, b) utilizan mapas como representación. Los mapas pueden aprenderse mediante redes neuronales que agregan todas las entradas RGB anteriores, así como mediante métodos de reconstrucción 3D como los campos de radiación neuronales Rosinol et al. (2022).

Para obtener más datos, los investigadores han utilizado simuladores gráficos para sintetizar datos sintéticos Mu et al. (2021); Gong et al. (2023b) y han intentado cerrar la brecha sim2real Tobin et al. (2017); Sadeghi y Levine (2016); Peng et al. (2018). Recientemente, se han realizado esfuerzos concertados para curar conjuntos de datos a gran escala con el objetivo de abordar la escasez de datos Padalkar et al. (2023); Brohan et al. Por otra parte, también se han investigado ampliamente técnicas de mejora de datos para aumentar la complejidad de las muestras Zeng et al. (2021); Rao et al. (2020); Haarnoja et al. (2023); Lifshitz et al.

4.1.4 Aprendizaje contextual

El aprendizaje contextual ha demostrado ser un método eficaz para resolver tareas de procesamiento del lenguaje natural utilizando grandes modelos lingüísticos como GPT-3 Brown et al. (2020); Min et al. (2022). Al proporcionar ejemplos de tareas en el contexto de las indicaciones del modelo de lenguaje grande, se puede ver que las indicaciones sin muestras son una forma eficaz de contextualizar la salida del modelo en una variedad de tareas en el procesamiento del lenguaje natural. Factores como la variedad de ejemplos y la calidad de los ejemplos presentados en el contexto pueden mejorar la calidad de la salida del modelo An et al. (2023); Dong et al. (2022). En el contexto de los modelos de base multimodal, cuando sólo se da un pequeño número de ejemplos, modelos como Flamingo y BLIP-2 Alayrac et al. (2022); Li et al. (2023c) han demostrado ser eficaces en una amplia variedad de tareas de comprensión visual. El aprendizaje contextual de inteligencias en el entorno puede mejorarse aún más integrando retroalimentación específica del contexto cuando se realizan determinadas acciones Gong et al. (2023a).

4.1.5 Optimización en sistemas corporales inteligentes

La optimización de los sistemas corporales inteligentes puede dividirse en aspectos espaciales y temporales. La optimización espacial tiene en cuenta cómo operan los cuerpos inteligentes en el espacio físico para realizar tareas. Esto incluye la coordinación entre robots, la asignación de recursos y el mantenimiento de un espacio organizado.

Para optimizar eficazmente los sistemas de IA de cuerpos inteligentes, en particular aquellos en los que un gran número de inteligencias operan en paralelo, los trabajos anteriores se han centrado en utilizar el aprendizaje por refuerzo de gran volumen Shacklett et al. (2023). Dado que los conjuntos de datos de interacción entre cuerpos multiinteligentes para tareas específicas son escasos, el aprendizaje por refuerzo de juego automático permite a los equipos de cuerpos inteligentes mejorar con el tiempo. Sin embargo, esto también puede dar lugar a inteligencias muy frágiles que sólo pueden funcionar bajo autojuego y no con humanos u otras inteligencias independientes porque se adaptan en exceso al paradigma de entrenamiento de autojuego. Para abordar este problema, podemos en su lugar descubrir un conjunto de convenciones diferentes Cui et al. (2023); Sarkar et al. (2023) y entrenar una inteligencia que comprenda las distintas convenciones. El modelo base puede ayudar además a establecer convenciones con humanos u otras inteligencias independientes, permitiendo así una coordinación fluida con nuevas inteligencias.

Por otro lado, la optimización temporal se centra en cómo las inteligencias realizan las tareas a lo largo del tiempo. Esto incluye la programación de tareas, la secuenciación y la eficiencia temporal. Por ejemplo, la optimización de la trayectoria de un brazo robótico es un ejemplo de optimización eficiente del movimiento entre tareas sucesivas Zhou et al. (2023c). A nivel de programación de tareas, algoritmos como LLM-DP Dagan et al. (2023) y ReAct Enfoques como el de Yao et al. (2023a) abordan la planificación eficaz de tareas mediante la integración interactiva de factores ambientales.

4.2 Sistemas de agentes (niveles cero y pocas muestras)

4.2.1 Módulo Agente

Nuestra exploración inicial del paradigma de Agente implicó el desarrollo de "módulos" de IA de Agente para Agentes multimodales interactivos que utilizan el Modelo de Lenguaje Amplio (LLM) o el Modelo de Lenguaje Visual (VLM). Nuestros módulos iniciales de Agente contribuyen al entrenamiento o aprendizaje contextual y tienen un diseño minimalista destinado a demostrar la capacidad de un Agente para programar y coordinar eficazmente. También exploramos técnicas iniciales de memoria basadas en pistas que ayudan a planificar mejor e informan sobre futuros métodos de actuación sobre el terreno. Para ilustrar esto, nuestra infraestructura "MindAgent" consta de 5 módulos principales: 1) Conocimiento del entorno con planificación de tareas, 2) Aprendizaje del Agente, 3) Memoria, 4) Predicción genérica de acciones del Agente y 5) Cognición, como se muestra en la Figura 5.

4.2.2 Infraestructura de agentes

La IA basada en agentes es una comunidad amplia y en rápido crecimiento en el ámbito del entretenimiento, la investigación y la industria. El desarrollo de modelos base a gran escala ha mejorado considerablemente el rendimiento de los sistemas de IA basada en agentes. Sin embargo, la creación de agentes de esta forma se ve limitada por la creciente cantidad de trabajo y el coste global necesarios para crear conjuntos de datos de alta calidad. En Microsoft, la creación de una infraestructura de agentes de alta calidad ha tenido un impacto significativo en el copilotaje de agentes multimodales mediante el uso de hardware avanzado, diversas fuentes de datos y sólidas bibliotecas de software. Como Microsoft sigue ampliando los límites de la tecnología de agentes, se espera que la plataforma de agentes de IA siga siendo una fuerza dominante en la inteligencia multimodal en los próximos años. No obstante, la interacción agente-inteligencia sigue siendo actualmente un proceso complejo que requiere una combinación de habilidades. Los recientes avances en el campo del modelado generativo de IA a gran escala tienen el potencial de reducir significativamente el elevado coste y el tiempo que requieren actualmente los contenidos interactivos, tanto para los grandes estudios como para proporcionar a los creadores de contenidos independientes más pequeños la capacidad de diseñar experiencias de alta calidad que superen sus capacidades actuales. Agentes multimodales en el interior Los sistemas HCI actuales se basan en gran medida en reglas. Tienen comportamientos inteligentes que responden a las acciones humanas/del usuario y poseen cierto grado de conocimiento de la red. Sin embargo, estas interacciones suelen estar limitadas por el coste del desarrollo de software, que impide implantar comportamientos específicos en el sistema. Además, los modelos actuales no están diseñados para ayudar a los usuarios a alcanzar sus objetivos en situaciones en las que son incapaces de realizar una tarea específica. Por lo tanto, se necesita una infraestructura de sistemas de IA de agentes que analice el comportamiento de los usuarios y les proporcione el apoyo adecuado cuando sea necesario.

4.3 Modelos de base basados en agentes (niveles de preentrenamiento y ajuste)

El uso de modelos de base preentrenados ofrece ventajas significativas en términos de amplia aplicabilidad a una gran variedad de casos de uso. La integración de estos modelos permite desarrollar soluciones personalizadas para una amplia gama de aplicaciones, evitando así la necesidad de preparar grandes conjuntos de datos etiquetados para cada tarea específica.

Un ejemplo notable en el campo de la navegación es el sistema LM-Nav de Shah et al. (2023a), que combina GPT-3 y CLIP en un nuevo enfoque. Utiliza eficazmente puntos de referencia textuales generados por un modelo lingüístico, anclándolos en imágenes adquiridas por el robot para la navegación. Este enfoque demuestra la perfecta fusión de datos textuales y visuales, mejorando significativamente la capacidad de navegación del robot y manteniendo una amplia aplicabilidad.

La combinación de LLM y detectores de objetos de alto nivel (p. ej., Detic Zhou et al. (2022)) puede ayudar a comprender órdenes humanas a la vez que sitúa la información textual dentro de la información de la escena Parakh et al. (2023 ). Además, avances recientes demuestran el potencial del uso de la ingeniería de pistas junto con modelos multimodales avanzados como el GPT-4V(isión) Wake et al. (2023b). Esta técnica abre el camino a la planificación de tareas multimodales, destacando la versatilidad y adaptabilidad de los modelos preentrenados en diversos entornos.

5 Clasificación de la IA de los agentes

5.1 Dominio genérico del agente

Las acciones computacionales y los Agentes Generalizados (AG) son útiles para muchas tareas. Los recientes avances en el campo de los modelos de base a gran escala y la IA interactiva han permitido dotar a los AG de nuevas capacidades. Sin embargo, para que los AG sean realmente valiosos para sus usuarios, deben ser fáciles de interactuar con ellos y generalizarse a una amplia gama de entornos y modalidades. En la Sección 6 ampliamos con gran calidad los principales capítulos sobre IA basada en agentes, especialmente en áreas relacionadas con estos temas en general:

Multimodal Agent AI (MMA) es un próximo foro ^1^^1^ URL actual: https://multimodalagentai.github.io/ para que nuestras comunidades de investigación e industria interactúen entre sí y con la comunidad más amplia de investigación y tecnología de IA de agentes. Los recientes avances en el campo de los modelos fundamentales a gran escala y la IA interactiva han permitido nuevas capacidades para los Agentes de Propósito General (AG), como la predicción del comportamiento del usuario y la planificación de tareas en entornos con restricciones (por ejemplo, MindAgent Gong et al. (2023a), la comprensión de vídeo multimodal de grano fino Luo et al. (2022), la robótica Ahn et al. ( (2022b); Brohan et al. (2023)), o proporcionar a los usuarios compañeros de chat que contengan retroalimentación de conocimientos (por ejemplo, atención al cliente basada en web para sistemas sanitarios Peng et al. (2023)). A continuación se muestra información más detallada sobre trabajos representativos y recientes. Esperamos debatir nuestra visión del futuro de MAA e inspirar a futuros investigadores para que trabajen en este campo. Esta ponencia y nuestro foro abarcan los siguientes temas principales, pero no se limitan a ellos:

Temas principales: IA de agentes multimodales, IA de agentes genéricos
Tema secundario: Agentes corporales, agentes de movimiento, agentes basados en el lenguaje, agentes visuales y lingüísticos, agentes de conocimiento y razonamiento, agentes para juegos, robótica, sanidad, etc.
Tema ampliado: Navegación visual, entornos simulados, reordenación, modelos basados en agentes, RV/AR/MR, visión corporizada y lenguaje.

A continuación, enumeramos las siguientes categorías representativas de Agentes:

5.2 Agente posesivo

Nuestro cerebro biológico existe en nuestros cuerpos, y nuestros cuerpos se mueven por un mundo en constante cambio. El objetivo de la IA incorporada es crear agentes, como robots, que aprendan a resolver de forma creativa tareas desafiantes que requieran interacción con el entorno. Aunque se trata de un gran desafío, los grandes avances en el aprendizaje profundo y la creciente disponibilidad de grandes conjuntos de datos como ImageNet han permitido un rendimiento sobrehumano en una amplia gama de tareas de IA que antes se consideraban difíciles de manejar. La visión por ordenador, el reconocimiento del habla y el procesamiento del lenguaje natural han experimentado revoluciones transformadoras en tareas pasivas de entrada-salida como la traducción de idiomas y la clasificación de imágenes, mientras que el aprendizaje por refuerzo ha logrado un rendimiento de primera clase en tareas interactivas como los juegos. Estos avances proporcionan un poderoso impulso a la IA incorporada, permitiendo que cada vez más usuarios avancen rápidamente hacia agentes inteligentes que puedan interactuar con las máquinas.

5.2.1 Agente de Acción

Los Agentes de Acción son agentes que necesitan realizar acciones físicas en un entorno físico simulado o en el mundo real; en concreto, necesitan participar activamente en actividades con el entorno. A grandes rasgos, clasificamos los Agentes de Acción en dos categorías diferentes en función de sus áreas de aplicación: IA de juegos y robótica.

En la IA de juegos, el Agente interactuará con el entorno del juego y con otras entidades independientes. En estos entornos, el lenguaje natural permite una comunicación fluida entre el Agente y los humanos. Dependiendo del juego, puede haber una tarea específica que completar que proporcione una señal de recompensa real. Por ejemplo, en un juego de diplomacia competitiva, el entrenamiento de un modelo de lenguaje utilizando datos de diálogo humano y estrategias de acción con aprendizaje de refuerzo puede permitir el juego a nivel humano Meta Fundamental AI Research Diplomacy Team et al. (2022) Meta Fundamental AI Research (FAIR ) Diplomacy Team, Bakhtin, Brown, Dinan, Farina, Flaherty, Fried, Goff, Gray, Hu, et al. (FAIR).

En algunos casos, los Agentes actuarán como habitantes ordinarios de una ciudad Park et al. (2023a) sin tratar de optimizar para un objetivo específico. Los modelos base son útiles en estos entornos porque pueden simular interacciones más naturales imitando el comportamiento humano. Cuando se aumentan con memoria externa, producen Agentes convincentes que pueden mantener conversaciones, programar actividades diarias, entablar relaciones y tener vidas virtuales.

5.2.2 Agente interactivo

Los Agentes Interactivos se refieren simplemente a los Agentes que pueden interactuar con el mundo, una clase de Agentes más amplia que los Agentes de Acción.fisioterapiaEl agente interactivo no tiene por qué realizar acciones, sino que puede transmitir información al usuario o modificar el entorno. Por ejemplo, un Agente interactivo incorporado podría responder a las preguntas de un usuario sobre un tema a través del diálogo o ayudarle a analizar la información existente, de forma similar a un chatbot. Al ampliar las capacidades del Agente para incluir el intercambio de información, el diseño central y los algoritmos de la IA de Agente pueden adaptarse eficazmente a una serie de aplicaciones, como el diagnóstico Lee et al. (2023) y la recuperación de conocimientos Agente Peng et al.

5.3 Agente de simulación y entorno

Una forma eficaz de que un Agente de IA aprenda a actuar en un entorno es a través de la experiencia de ensayos repetidos de interacción con el entorno. Un enfoque representativo es el aprendizaje por refuerzo (RL), que requiere un gran número de fallos para entrenar al Agente.Aunque existen métodos que utilizan Agentes físicos Kalashnikov et al. (2018), el uso de Agentes físicos requiere mucho tiempo y es caro. Además, cuando los fallos en entornos reales pueden ser peligrosos (por ejemplo, conducción autónoma, vehículos submarinos), el entrenamiento en entornos físicos a menudo no es factible. Por lo tanto, el uso de simuladores para aprender estrategias es un enfoque común.

Se han propuesto varias plataformas de simulación para la investigación de la IA incorporada, desde la navegación Tsoi et al. (2022); Deitke et al. (2020); Kolve et al. (2017) hasta la manipulación de objetos Wang et al. (2023d); Mees et al. (2023a); Ehsani et al. (2021). Un ejemplo es Habitat Savva et al. (2019); Szot et al. (2021), que proporciona un entorno interior en 3D en el que Agentes humanos y robóticos pueden realizar diversas tareas, como navegar, seguir órdenes y responder preguntas. Otra plataforma de simulación representativa es VirtualHome Puig et al. (2018), que admite avatares humanos para manipular objetos en un entorno interior 3D. En el ámbito de los juegos, Carroll et al. presentaron "Overcooked-AI", un entorno de referencia diseñado para estudiar tareas cooperativas entre humanos e IA Carroll et al. (2019). Del mismo modo, algunos trabajos pretenden incorporar la intervención humana real más allá del enfoque en la interacción Agente-entorno Puig et al. (2023); Li et al. (2021a); Srivastava et al. (2022). Estos simuladores facilitan el aprendizaje de políticas en entornos reales que implican interacciones Agente-robot, así como el aprendizaje de políticas basado en IL utilizando acciones humanas de demostración.

En algunos casos, el proceso de aprendizaje de estrategias puede requerir la integración de funcionalidades especializadas en el simulador. Por ejemplo, cuando se aprenden estrategias basadas en imágenes, a menudo se requiere una renderización realista para facilitar la adaptación a entornos reales Mittal et al. (2023); Zhong et al. (2023). El uso de un motor de renderizado realista es eficaz para generar imágenes que reflejen una variedad de condiciones (por ejemplo, entornos de iluminación). Además, los simuladores que emplean motores de física son necesarios para simular interacciones físicas con objetos Liu y Negrut (2021). Se ha demostrado que la integración de motores de física en las simulaciones ayuda a adquirir habilidades aplicables a escenarios realistas Saito et al. (2023).

5.4 Agente Generativo

Los recientes avances en el ámbito de los modelos generativos de IA a gran escala tienen el potencial de reducir significativamente el elevado coste y el tiempo que requieren actualmente los contenidos interactivos, tanto para los grandes estudios de videojuegos como para los estudios independientes más pequeños, a fin de crear experiencias de alta calidad que superen sus capacidades actuales. Además, la incrustación de modelos de IA a gran escala en entornos sandbox permitirá a los usuarios ser autores de sus propias experiencias y expresar su creatividad de formas que actualmente no son posibles.

El objetivo de este Agente no es sólo añadir contenido 3D interactivo a la escena:

Añade reglas de comportamiento e interacción arbitrarias a los objetos, lo que permite a los usuarios crear sus propias reglas de RV con un mínimo de indicaciones.
Toda la geometría del nivel se genera a partir de bocetos en papel utilizando modelos multimodales GPT4-v, así como otras cadenas de modelos que implican modelos visuales de IA.
Retexturización del contenido de una escena mediante un modelo de difusión
Cree sombreadores y efectos visuales personalizados con sencillas indicaciones al usuario

Una posible aplicación a corto plazo son las herramientas de creación de storyboards/prototipos de RV que permiten a un solo usuario crear un boceto aproximado (pero totalmente funcional) de una experiencia/juego a un orden de magnitud más rápido de lo que es factible en la actualidad. Este prototipo podría ampliarse y mejorarse con estas herramientas.

5.4.1 Agente AR/VR/Realidad Mixta

En la actualidad, los entornos de RA/RV/Realidad Mixta (colectivamente, RX) requieren artistas y animadores cualificados para crear personajes, entornos y objetos que simulen interacciones en el mundo virtual. Se trata de un proceso costoso que implica arte conceptual, modelado 3D, texturizado, encuadernación y animación. XR Agent puede ayudar en este proceso facilitando las interacciones entre creadores y creando herramientas que ayuden a construir el entorno virtual final.

Nuestros primeros experimentos han demostrado que los modelos GPT pueden utilizarse (sin ningún ajuste adicional) en un mecanismo sample less del motor Unity para invocar métodos específicos del motor, utilizando llamadas a la API para descargar modelos 3D de Internet y colocarlos en la escena, y asignándoles comportamiento y animación en un árbol de estados Huang et al. (2023a). Este comportamiento puede haber surgido debido a la presencia de código similar en repositorios de juegos de código abierto que utilizan Unity. Como resultado, el modelo GPT es capaz de construir ricas escenas visuales cargando muchos objetos en la escena basándose en simples indicaciones del usuario.

El objetivo de esta clase de Agentes es construir una plataforma y un conjunto de herramientas que proporcionen una interfaz eficiente entre grandes modelos de IA (la familia de modelos GPT, así como modelos de imagen difusa) y motores de renderizado. Aquí exploramos dos vías principales:

Integre modelos de gran tamaño en las distintas herramientas de edición de la infraestructura del Agente para acelerar drásticamente el desarrollo.
Controlar el motor de renderizado desde la experiencia del usuario generando código que sigue las instrucciones del usuario y se compila en tiempo de ejecución, lo que permite a los usuarios editar la RV/simulación con la que interactúan de la forma que deseen, e incluso introducir nuevos mecanismos de Agente.

La introducción de un copiloto de IA centrado en las configuraciones de XR es útil para los creadores de XR, que pueden utilizar el copiloto para tareas tediosas como proporcionar activos sencillos o escribir muestras de código, lo que permite a los creadores centrarse en su visión creativa e iterar sobre las ideas rápidamente.

Además, los Agentes pueden ayudar a los usuarios a modificar sus entornos de forma interactiva añadiendo nuevos activos, cambiando la dinámica del entorno o construyendo nuevos escenarios. Esta forma de generación dinámica en tiempo de ejecución también puede ser especificada por el creador para que la experiencia del usuario se sienta fresca y evolucione con el tiempo.

5.5 Inteligencias del conocimiento y del razonamiento lógico

La capacidad de razonar y aplicar el conocimiento es una característica definitoria de la cognición humana, especialmente evidente en tareas complejas como la deducción lógica y la comprensión de las teorías de la mente ^2^^2^https://plato.stanford.edu/entries/cognitive-science. El razonamiento sobre el conocimiento garantiza que las respuestas y el comportamiento de la IA sean coherentes con los hechos conocidos y los principios lógicos. lógicos. Esta coherencia es un mecanismo clave para mantener la confianza y la fiabilidad en los sistemas de IA, especialmente en aplicaciones críticas como el diagnóstico médico o el análisis jurídico. Aquí presentamos una serie de inteligencias que combinan la interacción entre el conocimiento y el razonamiento y que están diseñadas para abordar aspectos específicos de la inteligencia y el razonamiento.

5.5.1 Inteligencia del conocimiento

Las inteligencias del conocimiento razonan sobre sus sistemas de conocimiento adquiridos de dos maneras: implícita y explícitamente. El conocimiento implícito suele ser el conocimiento encapsulado por grandes modelos lingüísticos como la familia GPT Brown et al. (2020); OpenAI (2023) tras haber sido entrenados con grandes cantidades de datos textuales. Estos modelos pueden generar respuestas que dan la impresión de comprensión porque utilizan patrones e información aprendidos implícitamente durante el entrenamiento. Por el contrario, el conocimiento explícito está estructurado y puede consultarse directamente, como la información que se encuentra en bases de datos o de conocimiento, y tradicionalmente ha aumentado el razonamiento de la IA haciendo referencia a recursos externos verificables.

A pesar de los avances en los modelos lingüísticos, su conocimiento implícito es estático y queda obsoleto a medida que el mundo evoluciona Lewis et al. (2020); Peng et al. (2023). Esta limitación hace necesario integrar fuentes de conocimiento explícito continuamente actualizadas para garantizar que los sistemas de IA puedan ofrecer respuestas precisas y actualizadas. La integración del conocimiento implícito y explícito dota a las inteligencias de IA de una comprensión más matizada y de la capacidad de aplicar el conocimiento en contexto como la inteligencia humana Gao et al. (2022). Esta integración es fundamental para construir inteligencias de IA centradas en el conocimiento que no solo tengan información, sino que puedan comprenderla, interpretarla y utilizarla, salvando la distancia entre el aprendizaje extensivo y el conocimiento profundo (Marcus y Davis, 2019; Gao et al., 2020). Estas inteligencias pretenden razonar de forma flexible y con información dinámica sobre el mundo, potenciando así su robustez y adaptabilidad (Marcus, 2020).

5.5.2 Inteligencias lógicas

Normalmente, las inteligencias lógicas son componentes de un sistema diseñados para aplicar el razonamiento lógico para procesar datos o resolver tareas específicas del razonamiento lógico o la argumentación lógica. En el contexto de un gran modelo base como GPT-4, las inteligencias lógicas se refieren a componentes especializados o submódulos diseñados para gestionar tareas de razonamiento lógico. Estas tareas suelen implicar la comprensión y manipulación de conceptos abstractos, la deducción de conclusiones a partir de premisas dadas o la resolución de problemas que requieren un enfoque lógico estructurado. En términos generales, los modelos de base como GPT-4 se entrenan con grandes corpus de datos textuales y aprenden a realizar diversas tareas, incluidas las que requieren algún tipo de razonamiento lógico. Como tales, sus capacidades de razonamiento lógico están integradas en la arquitectura general, y no suelen tener "inteligencias lógicas" separadas y aisladas. Aunque el GPT-4 y otros modelos similares pueden realizar tareas relacionadas con la lógica, su enfoque es fundamentalmente diferente del modo en que operan los humanos o los sistemas tradicionales basados en la lógica. No siguen reglas lógicas formales ni tienen una comprensión explícita de la lógica, sino que generan respuestas basadas en patrones aprendidos a partir de datos de entrenamiento. Como resultado, su rendimiento en tareas lógicas puede ser impresionante, pero también puede ser incoherente o estar limitado por la naturaleza de los datos de entrenamiento y las limitaciones inherentes al diseño del modelo. Un ejemplo de incrustación de un submódulo lógico independiente en la arquitectura es (Wang et al., 2023e), que modifica el proceso de incrustación de tokens utilizado por el LLM durante el preentrenamiento analizando el texto en segmentos lógicos y modelando explícitamente la jerarquía lógica en la incrustación de tokens.

5.5.3 Inteligencia para el razonamiento emocional

La comprensión emocional y la empatía son habilidades importantes que las inteligencias deben poseer en muchas interacciones entre humanos y ordenadores. Para ilustrar este punto, un objetivo importante en la creación de inteligencias conversacionales atractivas es que las inteligencias muestren una mayor emoción y empatía cuando actúan, al tiempo que minimizan la producción que es socialmente inapropiada u ofensiva. Para avanzar en este objetivo de las inteligencias conversacionales, publicamos una revisión de las neuroimágenes con empatía (NICE) Chen et al. (2021), que contiene casi 2 millones de imágenes junto con los correspondientes comentarios generados manualmente y un conjunto de anotaciones de sentimientos humanos. También proporcionamos un nuevo modelo preentrenado para modelar la generación de sentimientos en los comentarios de imágenes (MAGIA) Chen et al. (2021) pretende generar comentarios sobre imágenes condicionados por representaciones lingüísticas que capten el estilo y la emoción y ayuden a generar comentarios más empáticos, emotivos, atractivos y socialmente apropiados. Nuestros experimentos demuestran que el método es eficaz para entrenar inteligencias de comentario de imágenes más humanas y atractivas. Desarrollar inteligencias conscientes de la empatía es una dirección prometedora para las inteligencias interactivas, y es importante crear inteligencias con comprensión emocional para una amplia gama de grupos y poblaciones, especialmente teniendo en cuenta que muchos modelos lingüísticos actuales muestran sesgos en su comprensión emocional y capacidades de razonamiento empático Mao et al. (2022); Wake et al. (2023d).

5.5.4 Inteligencias neurosimbólicas

Las inteligencias neurosimbólicas operan sobre sistemas híbridos de neuronas y símbolos d'Avila Garcez y Lamb (2020). Resolver el problema de las representaciones del lenguaje natural es una tarea desafiante porque requiere capturar explícitamente la información estructural simbólica discreta implícita en la entrada. Sin embargo, la mayoría de los modelos de secuencias neuronales de propósito general no capturan explícitamente dicha información estructural, limitando así su rendimiento en estas tareas.El trabajo de Chen et al. (2020) propone un novedoso modelo codificador-decodificador basado en inteligencias representacionales neuronales estructuradas.El codificador del TP-N2F emplea un TPR "binding El codificador del TP-N2F emplea un "binding" TPR para codificar estructuras simbólicas de lenguaje natural en el espacio vectorial, y el decodificador emplea un "unbinding" TPR para generar programas secuenciales representados por tuplas relacionales en el espacio simbólico, donde cada tupla contiene una relación (u operación) y algunos parámetros.

Los modelos de lenguaje visual (LV) que siguen comandos, como GPT-4, proporcionan una interfaz flexible que admite una amplia gama de tareas multimodales de forma cero-muestra. Sin embargo, las interfaces que se ejecutan en imágenes completas no permiten directamente al usuario "señalar" y acceder a regiones específicas dentro de la imagen. Esta capacidad es importante no sólo para soportar benchmarks de VL basados en referencias, sino también para aplicaciones del mundo real que requieren un razonamiento preciso dentro de la imagen. En (Park et al., 2023b), construimos un modelo de sentido común visual local que permite a los usuarios especificar (múltiples) regiones como entrada. Entrenamos nuestro modelo muestreando el conocimiento de sentido común local a partir de un Modelo de Lenguaje Amplio (LLM): en concreto, incitamos al LLM a recopilar conocimiento de sentido común basado en descripciones literales globales de imágenes y un conjunto de descripciones literales locales de regiones generadas automáticamente por el modelo VL. El proceso es escalable y totalmente automatizado, ya que no se necesitan pares de imágenes y textos alineados o escritos manualmente. Al entrenar individualmente un modelo de revisión de ejemplos seleccionados de alta calidad, descubrimos que el entrenamiento en un corpus local de conocimiento general extendido sólo a partir de imágenes puede refinar con éxito los modelos de VL existentes para soportar interfaces que toman citas como entrada. Los resultados empíricos en un entorno de muestra cero y la evaluación manual demuestran que nuestro enfoque de perfeccionamiento produce modelos VL de inferencia más precisos en comparación con una línea de base de expresiones referenciales generadas de pasada.

5.6 Grandes modelos lingüísticos e inteligencias visuales de modelización del lenguaje

Muchos trabajos han utilizado grandes modelos lingüísticos como inteligencias para realizar la planificación de tareas (Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a), y han explotado el conocimiento del dominio a escala de Internet y las capacidades de planificación de muestra cero de los grandes modelos lingüísticos para realizar inteligencias como tareas de planificación e inferencia. planificación e inferencia. La investigación robótica reciente también ha utilizado grandes modelos de lenguaje para realizar la planificación de tareas (Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022) descomponiendo los comandos de lenguaje natural en una serie de subtareas, ya sea en forma de lenguaje natural o de código Python, que luego se ejecutan utilizando controladores de bajo nivel. Además, Huang et al. (2022b), Liang et al. (2022) y Wang et al. (2023a) también integran la retroalimentación del entorno para mejorar el rendimiento de las tareas. También hay muchos trabajos que demuestran que los grandes modelos de lenguaje genéricos alineados visualmente y entrenados con grandes datos de texto, imagen y vídeo pueden utilizarse como base para crear inteligencias multimodales que pueden encarnar y actuar en diversos entornos Baker et al. (2022); Driess et al. (2023); Brohan et al.

6 Tareas de aplicación de la IA al cuerpo inteligente

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 8: Simulación y generación del sentido de juego de la mazmorra de Minecraft mediante GPT-4V para inteligencias incorporadas para la predicción de acciones de juego interactivas con el usuario y la edición de interacciones.

6.1 Inteligencia de juego

El juego proporciona una caja de arena única para poner a prueba el comportamiento de las inteligencias tanto del modelo de lenguaje amplio como del modelo de lenguaje visual, ampliando los límites de su capacidad para colaborar y tomar decisiones. En concreto, describimos tres ámbitos que ponen de relieve la capacidad de las inteligencias para interactuar con jugadores humanos y otras inteligencias y para emprender acciones significativas en su entorno.

6.1.1 Comportamiento de los PNJ

En los sistemas de juego modernos, el comportamiento de los personajes no jugadores (PNJ) viene determinado en gran medida por guiones predefinidos escritos por los desarrolladores. Estos guiones contienen un conjunto de reacciones e interacciones basadas en diversos desencadenantes o acciones del jugador en el entorno del juego. Sin embargo, esta naturaleza guionizada suele traducirse en un comportamiento predecible o repetitivo de los PNJ que no evoluciona en función de las acciones del jugador o del entorno dinámico del juego. Esta rigidez dificulta la experiencia de inmersión que se espera de un entorno de juego dinámico. Por eso, cada vez hay más interés en utilizar grandes modelos lingüísticos que induzcan autonomía y adaptabilidad en los comportamientos de los PNJ para que las interacciones sean más matizadas y atractivas. Los PNJ controlados por inteligencia artificial pueden aprender del comportamiento de los jugadores, adaptarse a distintas estrategias y ofrecer una experiencia de juego más desafiante e impredecible. Los grandes modelos lingüísticos (LLM) pueden contribuir significativamente a la evolución del comportamiento de los PNJ en los juegos. Al procesar grandes cantidades de texto, los LLM pueden aprender patrones y generar respuestas más variadas y parecidas a las humanas. Pueden utilizarse para crear sistemas de diálogo dinámicos que hagan más atractivas y menos predecibles las interacciones con los PNJ. Además, los Big Language Models pueden entrenarse con los comentarios de los jugadores y los datos del juego para mejorar continuamente el comportamiento de los PNJ y adaptarlo mejor a las expectativas de los jugadores y a la dinámica del juego.

6.1.2 Interacción hombre-máquina PNJ

La interacción entre el jugador humano y el PNJ es un aspecto clave de la experiencia de juego. Los modelos de interacción tradicionales son, en gran medida, unidimensionales, y los PNJ reaccionan a los estímulos del jugador de una manera predeterminada. Esta limitación ahoga el potencial de interacciones más naturales y ricas (similares a las interacciones entre humanos) dentro del reino virtual. La aparición de las tecnologías Big Language Modelling y Visual Language Modelling promete cambiar este paradigma. Al emplear estas tecnologías, los sistemas de juego pueden analizar y aprender el comportamiento humano para ofrecer interacciones más parecidas a las humanas. Esto no sólo mejora el realismo y el compromiso de los juegos, sino que también proporciona una plataforma para explorar y comprender las interacciones entre humanos y ordenadores en entornos controlados pero complejos.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 9: La GPT-4V es eficaz a la hora de predecir los próximos movimientos de alto nivel cuando se le da el "historial de movimientos" y el "objetivo del juego" en la pista. Además, la GPT-4V reconoce con precisión que el jugador sostiene un tronco de madera en la mano y puede incorporar esta información percibida a sus futuros planes de acción. Aunque GPT-4V parece ser capaz de predecir algunas acciones de bajo nivel (por ejemplo, pulsar la tecla "E" para abrir una mochila), los resultados del modelo son intrínsecamente inadecuados para la predicción de acciones primitivas de bajo nivel (incluidos los movimientos del ratón) y pueden requerir módulos suplementarios para el control de acciones de bajo nivel.

6.1.3 Análisis de los juegos basados en el cuerpo inteligente

El juego forma parte integrante de la vida cotidiana y se calcula que atrae a la mitad de la población mundial https://www.dfcint.com/global-video-game-audience-reaches-3-7-billion/. Además, tiene un impacto positivo en la salud mental https://news.microsoft.com/source/features/work-life/mind-games-how-gaming-can-play-a-positive-role-in-mental- salud/. Sin embargo, los sistemas de juego contemporáneos presentan deficiencias en su interacción con los jugadores humanos, ya que su comportamiento está en gran medida diseñado a mano por los desarrolladores de juegos. Estos comportamientos preprogramados no suelen adaptarse a las necesidades del jugador. Por eso se necesitan nuevos sistemas de IA en los juegos que puedan analizar el comportamiento del jugador y ofrecerle la ayuda adecuada cuando sea necesario. Los sistemas de interacción inteligentes pueden revolucionar la forma en que los jugadores interactúan con los sistemas de juego. Tienen el potencial de adaptarse a la perfección a la experiencia del jugador, proporcionando información oportuna para enriquecer la experiencia de juego y mejorar la sinergia de la interacción persona-ordenador.

Los Big Language Models pueden ser potentes herramientas para analizar datos textuales del juego, como transcripciones de chats, comentarios de los jugadores y contenido narrativo. Pueden ayudar a identificar patrones en el comportamiento, las preferencias y las interacciones de los jugadores, lo que puede ser muy valioso para los desarrolladores de juegos a la hora de mejorar la mecánica y la narrativa. Además, los modelos de lenguaje visual pueden analizar grandes cantidades de datos de imágenes y vídeos de las sesiones de juego para ayudar a analizar las intenciones y acciones de los usuarios en el mundo del juego. Además, los grandes modelos de lenguaje y los modelos visuales de lenguaje pueden facilitar el desarrollo de inteligencias inteligentes dentro del juego que puedan comunicarse con el jugador y con otras inteligencias de forma sofisticada y similar a la humana, mejorando así la experiencia general del juego. Además de los grandes modelos de lenguaje y los modelos de lenguaje visual, los datos de entrada del usuario ofrecen una vía prometedora para la creación de inteligencias de juego que modelen la percepción, la jugabilidad y la comprensión del juego imitando a los jugadores humanos. Combinando la interacción y los comentarios del jugador, la entrada de píxeles y la planificación y comprensión del lenguaje natural, los modelos corporales inteligentes pueden ayudar a mejorar continuamente la dinámica del juego, impulsando así la evolución de los entornos de juego de una manera más centrada en el jugador.

6.1.4 Composición de escenas de juego

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 10: Predicción de vídeo enmascarado en un vídeo de Minecraft no visto. De izquierda a derecha: fotograma original, fotograma enmascarado, fotograma reconstruido y fotograma reconstruido con parche.

La composición de escenas es una parte importante de la creación y mejora de entornos de juego inmersivos. Implica la generación automática o semiautomática de escenas y entornos tridimensionales (3D) en el juego. Este proceso incluye la generación del terreno, la colocación de objetos, la creación de una iluminación realista y, a veces, incluso sistemas meteorológicos dinámicos.

Los juegos modernos suelen incluir vastos entornos de mundo abierto. Diseñar estos paisajes manualmente puede llevar mucho tiempo y consumir muchos recursos. La generación automatizada de terrenos (a menudo mediante técnicas procedimentales o basadas en IA) puede producir paisajes complejos y realistas sin mucha intervención humana. Los Big Language Models y los Visual Language Models pueden aprovechar el conocimiento a escala de Internet para desarrollar reglas que permitan diseñar paisajes visualmente impresionantes y únicos, no repetitivos. Además, los Big Linguistic Models y los Visual Linguistic Models pueden utilizarse para garantizar la coherencia semántica y la variabilidad de los activos generados. Colocar objetos como edificios, vegetación y otros elementos en la escena de forma realista y estéticamente agradable es fundamental para la inmersión.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 11: Predicción de acción siguiente a bajo nivel utilizando un modelo preentrenado de pequeñas inteligencias en un escenario de juego de Minecraft.

Los modelos de lenguaje visual y los modelos de gran lenguaje pueden ayudar a colocar objetos siguiendo reglas y estéticas predefinidas o aprendidas, lo que acelera el proceso de diseño de niveles. Los modelos de lenguaje visual y los modelos de gran lenguaje pueden entrenarse aún más para que comprendan los principios del diseño y la estética y ayuden a generar contenidos mediante procedimientos. Pueden ayudar a desarrollar reglas o directrices que los algoritmos procedimentales puedan seguir para generar objetos y escenas visualmente atractivos y adecuados al contexto.

La iluminación realista y los efectos atmosféricos son la base para crear entornos de juego creíbles y atractivos. Los algoritmos avanzados pueden simular condiciones de iluminación naturales y efectos meteorológicos dinámicos para realzar el realismo y la atmósfera de una escena. Los Big Language Models pueden ayudar a desarrollar sistemas para conseguir efectos atmosféricos y de iluminación más realistas de varias formas innovadoras. Los modelos de lenguaje visual pueden analizar grandes conjuntos de datos de condiciones atmosféricas y de iluminación del mundo real para ayudar a desarrollar algoritmos más realistas que simulen estos efectos en los juegos. Al comprender los patrones y la complejidad de la iluminación y la meteorología naturales, estos modelos pueden contribuir al desarrollo de algoritmos que imiten fielmente la realidad. Los Big Language Models y los Visual Language Models también pueden utilizarse para desarrollar sistemas que ajusten la iluminación y los efectos atmosféricos en tiempo real en función de las acciones del jugador, el estado del juego o entradas externas. Pueden procesar órdenes del jugador en lenguaje natural para modificar el entorno del juego y ofrecer una experiencia más interactiva e inmersiva.

6.1.5 Experimentos y resultados

Aprendizaje de muestra cero/poca muestra utilizando un modelo lingüístico grande o un modelo lingüístico visual.

Como mostramos en las figuras 8 y 9, utilizamos GPT-4V para la descripción de alto nivel y la predicción de acciones. La figura 8 muestra algunos ejemplos cualitativos del uso de GPT-4V para generar descripciones y ediciones de acciones. El texto inteligente realzado por el cuerpo abre una nueva forma de generar escenas 3D utilizando la acción del juego a priori para ayudar a mejorar la naturalidad de la escena. Como resultado, GPT-4V genera descripciones relevantes de alto nivel relacionadas con el vídeo del juego.

Modelos de preentrenamiento para inteligencias pequeñas.

Para demostrar nuestra arquitectura de lenguaje visual para inteligibles, primero investigamos su aplicación para el preentrenamiento en datos de Minecraft, un dominio ampliamente utilizado para inteligibles de juegos. Como se muestra en la Fig. 7, dada una entrada de acción-cuerpo inteligente, fotogramas clave de vídeo y texto correspondiente, las acciones del cuerpo inteligente y las imágenes se pueden convertir en Token de Texto de Acción y Token de Parche de Imagen utilizando un codificador-decodificador estándar, que luego se pueden convertir en Frases de Predicción de Acción utilizando un decodificador de lenguaje visual de cuerpo inteligente. La arquitectura general se muestra en la figura 7. Los datos de vídeo de Minecraft consisten en clips de 5 minutos, y el vídeo que utilizamos para el preentrenamiento contiene 78.000 vídeos, y utilizamos 5.000 vídeos (que representan 6% de los datos de preentrenamiento) para la primera ronda de preentrenamiento. Entrenamos un modelo de 250 millones de parámetros en 16 GPUs NVIDIA v100 durante un día y visualizamos el resultado de nuestro modelo en las figuras 10 y 11. La figura 10 muestra que nuestra arquitectura smartbody relativamente pequeña puede generar resultados razonables para escenas de Minecraft no vistas durante el entrenamiento. La figura 11 muestra una comparación de las predicciones del modelo con las acciones de jugadores humanos reales, lo que demuestra el potencial de comprensión a bajo nivel de nuestro pequeño modelo de cuerpo inteligente.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 12: Infraestructura de juego MindAgent for Contextual Learning. habilidades de planificación y uso de herramientas: los entornos de juego requieren un conjunto diverso de habilidades de planificación y uso de herramientas para cumplir sus tareas. Genera información relevante del juego y convierte los datos del juego en un formato de texto estructurado que puede ser procesado por el Big Language Model. Big Language Models: el principal motor de trabajo de nuestra infraestructura toma decisiones y, por tanto, actúa como despachador de sistemas corporales multiinteligentes. Historial de memoria: utilidades para almacenar información relevante. Módulo de acción: extrae acciones de la entrada textual y las convierte en un lenguaje específico del dominio, y valida el DSL para que no se produzcan errores durante la ejecución.

Infraestructura corporal multiinteligente.

Como se muestra en el paradigma del cuerpo inteligente de la Fig. 5, hemos diseñado una nueva infraestructura para un nuevo escenario de juego llamado "CuisineWorld" Gong et al. (2023a). Describimos nuestro enfoque en detalle en la Figura 12. Nuestra infraestructura permite la colaboración multi-inteligencia utilizando GPT-4 como planificador central y trabajando a través de múltiples dominios de juego. Investigamos las capacidades de planificación multiinteligencia del sistema y desplegamos la infraestructura en un videojuego del mundo real para demostrar la eficacia de su multiinteligencia y la colaboración entre humanos y ordenadores. Además, demostramos "Cuisineworld", un punto de referencia basado en texto para la colaboración multiinteligencia que proporciona una nueva métrica automatizada Collaboration Score (CoS) para cuantificar la eficacia de la colaboración.

Para más ejemplos y detalles sobre descripciones de juegos, predicciones de acciones de alto nivel y pistas GPT-4V, véase el Apéndice. Mostramos ejemplos para Bleeding Edge, véase la Figura 32 y el Apéndice B; Microsoft Flight Simulator, véase la Figura 33 y el Apéndice C; ASSASSIN's CREED ODYSSEY, véase la Figura 34 y el Apéndice D; GEARS of WAR 4, véase la Figura 35 y el Apéndice E; y Starfield. Véase la Figura 35 y el Apéndice E; y el ejemplo de Starfield, véase la Figura 36 y el Apéndice F. También proporcionamos capturas de pantalla detalladas del proceso de GPT4V utilizado para generar el ejemplo de Minecraft, véase la Figura 31 y el Apéndice A.

6.2 Robótica

Los robots son inteligencias típicas que necesitan interactuar eficazmente con su entorno. En esta sección, presentamos los elementos clave de un funcionamiento eficaz de los robots, repasamos los temas de investigación en los que se han aplicado las últimas técnicas de modelado de grandes lenguajes/ modelado de lenguajes visuales (LLM/VLM) y compartimos los resultados de nuestras investigaciones recientes.

Control visual del movimiento.

El control visual del movimiento se refiere a la integración de la percepción visual y las acciones motoras para realizar tareas de forma eficiente en un sistema robótico. Esta integración es fundamental porque permite al robot interpretar los datos visuales de su entorno y ajustar sus acciones motoras en consecuencia para interactuar con precisión con el entorno. Por ejemplo, en una cadena de montaje, un robot equipado con control de movimiento por visión puede detectar la posición y orientación de los objetos y ajustar con precisión su brazo robótico para interactuar con ellos. Esta capacidad es fundamental para garantizar la precisión y eficacia de las operaciones robóticas en aplicaciones que van desde la automatización industrial hasta la asistencia a ancianos en sus tareas cotidianas. Además, el control visual del movimiento ayuda a los robots a adaptarse a entornos dinámicos, en los que el estado del entorno puede cambiar rápidamente, lo que requiere un ajuste en tiempo real de las acciones motoras basado en la información visual.

Además, en el contexto de un funcionamiento seguro, la información visual es crucial para detectar errores de ejecución e identificar las condiciones previas y posteriores a cada acción del robot. En entornos no controlados, como los entornos domésticos desconocidos, es más probable que los robots se vean expuestos a resultados imprevistos debido a factores impredecibles como cambios en la forma de los muebles, cambios en la iluminación y deslizamientos. Ejecutar escenarios de movimiento planificados de antemano únicamente de forma realimentada puede plantear riesgos significativos en estos entornos. Por tanto, el uso de información visual para validar continuamente los resultados de cada paso es clave para garantizar un funcionamiento sólido y fiable del sistema robótico.

Operación condicionada por el idioma.

El funcionamiento condicionado por el lenguaje se refiere a la capacidad de un sistema robótico para interpretar y realizar tareas basadas en instrucciones lingüísticas. Este aspecto es especialmente importante para crear interfaces humano-robot intuitivas y fáciles de usar. Mediante comandos de lenguaje natural, el usuario puede especificar objetivos y tareas al robot de forma similar a la comunicación entre humanos, lo que reduce el umbral de funcionamiento del sistema robótico. Por ejemplo, en un escenario real, un usuario puede ordenar a un robot de servicio que "recoja la manzana roja de la mesa", y el robot analizará esta orden, reconocerá el objeto al que se refiere y realizará la tarea de recoger el objeto Wake et al. (2023c). El reto principal consiste en desarrollar algoritmos sólidos de procesamiento y comprensión del lenguaje natural que puedan interpretar con precisión una amplia gama de instrucciones, desde órdenes directas hasta instrucciones más abstractas, y permitan al robot traducir estas instrucciones en tareas procesables. Además, garantizar que los robots puedan generalizar estas instrucciones a diferentes tareas y entornos es fundamental para aumentar la versatilidad y utilidad de los robots en aplicaciones del mundo real. El uso de entradas lingüísticas para guiar la planificación de tareas para robots ha recibido atención en un marco robótico denominado Planificación de Tareas y Movimiento Garrett et al. (2021).

Optimización de habilidades.

Investigaciones recientes han puesto de relieve la eficacia del modelado de grandes lenguajes (LLM) en la planificación de tareas robóticas. Sin embargo, la ejecución óptima de tareas, especialmente las que implican interacciones físicas como el agarre, requiere una comprensión más profunda del entorno que la mera interpretación de instrucciones humanas. Por ejemplo, el agarre robótico requiere puntos de contacto precisos Wake et al. (2023e) y posturas del brazo Sasabuchi et al. (2021) para la ejecución eficaz de las acciones posteriores. Aunque estos elementos -puntos de contacto precisos y posturas del brazo- son intuitivos para los humanos, expresarlos a través del lenguaje es todo un reto. A pesar de los avances en el modelado del lenguaje visual (VLM) a escala de Internet, captar estas sutiles señales indirectas de una escena y traducirlas eficazmente en habilidades robóticas sigue siendo un reto importante. Como respuesta, la comunidad robótica se ha centrado cada vez más en recopilar conjuntos de datos aumentados (por ejemplo, Wang et al. (2023d); Padalkar et al. (2023)) o en desarrollar métodos para adquirir habilidades directamente a partir de demostraciones humanas Wake et al. (2021a). Marcos como el Aprendizaje a partir de la Demostración y el Aprendizaje por Imitación lideran estos avances y desempeñan un papel crucial en la optimización de las competencias en física.

6.2.1 Modelo de Lenguaje Grande/Modelo de Lenguaje Visual (LLM/VLM) Intelligentsia para Robótica.

Investigaciones recientes han demostrado el potencial de los modelos de lenguaje visual (LLM/VLM) para las inteligencias robóticas que interactúan con los seres humanos en el entorno. Entre los temas de investigación orientados a explotar las últimas técnicas de modelización de grandes lenguajes/ modelización de lenguajes visuales (LLM/VLM) figuran:

sistema multimodalLa investigación reciente se ha centrado activamente en el desarrollo de sistemas integrales que utilizan las últimas tecnologías de modelado de grandes lenguajes (LLM) y modelado de lenguajes visuales (VLM) como codificadores de la información de entrada. En particular, la modificación de estos modelos subyacentes para manejar información multimodal se ha convertido en una tendencia importante.Jiang et al. (2022); Brohan et al. (2023, 2022); Li et al. (2023d); Ahn et al. (2022b); Shah et al. (2023b); Li et al. ( 2023e). Esta adaptación pretende guiar las acciones del robot basándose en órdenes verbales e indicaciones visuales para una incorporación eficaz.

Planificación de misiones y capacitaciónLos sistemas basados en la planificación de tareas y movimientos (TAMP), a diferencia de los sistemas de extremo a extremo, calculan primero planes de tareas de alto nivel, que luego se realizan mediante el control de robots de bajo nivel (denominados habilidades).

Se ha demostrado que las capacidades avanzadas de procesamiento del lenguaje de los modelos de lenguaje de gran tamaño (LLM) son capaces de interpretar instrucciones y descomponerlas en pasos de acción del robot, lo que supone un gran avance en las técnicas de planificación de tareas Ni et al. (2023); Li et al. (2023b); Parakh et al. (2023); Wake et al. (2023c). Para el entrenamiento de habilidades, varios estudios han explorado el uso de Large Language Modelling (LLM)/Visual Language Modelling (VLM) para diseñar funciones de recompensa Yu et al. (2023a); Katara et al. (2023); Ma et al. (2023), para generar datos para el aprendizaje de estrategias Kumar et al. (2023); Du et al. ( 2023), o como parte de una función de recompensa Sontakke et al. (2023). Combinados con marcos de formación como el aprendizaje por refuerzo y el aprendizaje por imitación, estos esfuerzos ayudarán a desarrollar controladores de robots eficientes.

Optimización in situ: La realización de tareas de larga duración en robótica puede resultar difícil debido a condiciones ambientales inesperadas e impredecibles. Por lo tanto, un reto importante en el campo de la robótica consiste en adaptar y mejorar dinámicamente las habilidades robóticas combinando la planificación de tareas con datos medioambientales en tiempo real. Por ejemplo, (Ahn et al., 2022b) propusieron un método que calcula la viabilidad (es decir, la disponibilidad) de una acción a partir de información visual y la compara con una tarea planificada. Además, existen enfoques que se centran en permitir que un Modelo de Lenguaje Amplio (LLM) emita precondiciones y postcondiciones (por ejemplo, el estado de los objetos y sus interrelaciones) de un paso de la tarea para optimizar su ejecución Zhou et al. (2023c) y detectar errores de precondicionamiento para realizar las modificaciones necesarias en el plan de la tarea Raman et al. (2023). Estas estrategias pretenden conseguir una ejecución del robot orientada al entorno mediante la integración de la información medioambiental y la adaptación de las acciones del robot a nivel del plan de tareas o del controlador.

Diálogo con IntelligentsiaEl concepto de robot conversacional: al crear robots conversacionales, los grandes modelos de lenguaje (LLM) pueden facilitar interacciones naturales y contextualmente relevantes con los humanos Ye et al. (2023a); Wake et al. (2023f). Estos modelos procesan y generan respuestas que imitan el diálogo humano, lo que permite a los robots entablar conversaciones significativas. Además, los Large Language Models (LLM) desempeñan un papel importante en la evaluación de conceptos Hensel et al. (2023); Teshima et al. (2022) y atributos afectivos Zhao et al. (2023); Yang et al. (2023b); Wake et al. (2023d). Estos atributos ayudan a comprender las intenciones humanas y a generar gestos significativos, contribuyendo así a la naturalidad y eficacia de la comunicación persona-ordenador.

Navegar por cuerpos inteligentes: La navegación robótica tiene una larga historia de investigación centrada en aspectos fundamentales como la planificación de trayectorias basada en mapas y la localización y construcción simultáneas de mapas (SLAM) para crear mapas del entorno. Estas características se han convertido en estándar en middleware robótico ampliamente utilizado, como el sistema operativo para robots (ROS) Guimarães et al. (2016).

Aunque las técnicas clásicas de navegación siguen siendo frecuentes en muchas aplicaciones robóticas, suelen basarse en mapas estáticos o creados previamente. Recientemente, ha aumentado el interés por las técnicas avanzadas que permiten a los robots navegar en entornos más difíciles, aprovechando los avances en áreas como la visión por ordenador y el procesamiento del lenguaje natural. Una tarea representativa es la navegación de objetos Chaplot et al. (2020a); Batra et al. (2020); Gervet et al. (2023); Ramakrishnan et al. (2022); Zhang et al. (2021), en la que los robots utilizan los nombres de los objetos en lugar de las coordenadas del mapa para la navegación, lo que requiere la localización visual de los objetos. para la navegación, lo que requiere la localización visual de los nombres de los objetos en el entorno. Además, recientemente se ha prestado atención a las técnicas de navegación de robots en entornos completamente desconocidos y novedosos de forma cero-muestra sobre un modelo base, la denominada navegación de objetos cero-muestra Gadre et al. (2023); Dorbala et al. (2023); Cai et al. (2023). Además, la navegación lingüística visual (VLN) Anderson et al. (2018a) es una tarea representativa, en la que la tarea implica navegar por un cuerpo inteligente a través de comandos de lenguaje natural en un entorno real no visto previamente Shah et al. (2023a); Zhou et al. (2023a); Dorbala et al. (2022); Liang et al. (2023); Huang et al. (2023b). La navegación lingüística visual (VLN) interpreta frases en lugar de nombres de objetos, por ejemplo, "vaya al baño por la izquierda", por lo que requiere una mayor funcionalidad para analizar el texto de entrada Wang et al. (2019).

La aparición del modelo subyacente ha contribuido al desarrollo de esta técnica de navegación adaptativa sobre la marcha al mejorar la comprensión de las órdenes verbales humanas y la interpretación visual de la información ambiental. Para una explicación más detallada de la investigación representativa de la navegación lingüística visual (VLN), véase 6.2.2.

6.2.2 Experimentos y resultados.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 13: Visión general de un sistema robótico de enseñanza que integra un planificador de tareas basado en ChatGPT. El proceso consta de dos pasos: la planificación de tareas, en la que el usuario crea una secuencia de acciones utilizando el planificador de tareas y ajusta los resultados con retroalimentación según sea necesario; y la demostración, en la que el usuario demuestra visualmente la secuencia de acciones para proporcionar la información necesaria para el funcionamiento del robot. El sistema de visión recoge los parámetros visuales que se utilizarán para la ejecución del robot.

Cada vez hay más pruebas de que los recientes modelos de lenguaje visual (VLM) y los modelos de lenguaje amplio (LLM) tienen buenas capacidades para la planificación simbólica de tareas (por ejemplo, qué hacer). Sin embargo, cada tarea requiere estrategias de control de bajo nivel (por ejemplo, cómo hacerlo) para lograr una interacción satisfactoria entre entornos. Mientras que el aprendizaje por refuerzo e imitación son enfoques prometedores para aprender estrategias de una manera basada en datos, otro enfoque prometedor es adquirir estrategias directamente de los humanos a través de demostraciones en vivo, un enfoque conocido como "aprendizaje por observación" Wake et al. (2021a); Ikeuchi et al. En esta sección, presentamos un estudio en el que utilizamos ChatGPT para la planificación de tareas y enriquecimos el plan parametrizándolo con información sobre disponibilidad para facilitar una ejecución eficaz y precisa (Figura 13).

El proceso consta de dos módulos: planificación de tareas y parametrización. En la planificación de tareas, el sistema recibe instrucciones lingüísticas y una descripción del entorno de trabajo. Estas instrucciones, junto con las acciones predefinidas del robot y las especificaciones de salida, se compilan en una instrucción completa que se proporciona a ChatGPT, que a continuación genera una serie de tareas descompuestas y sus descripciones textuales (Fig. 13; panel izquierdo). Cabe señalar que utilizamos un enfoque sin muestras, lo que significa que ChatGPT no ha sido entrenado para esta tarea, lo que resulta ventajoso en términos de aplicabilidad, ya que elimina la necesidad de recopilar datos relacionados con el hardware y de entrenar el modelo. Además, las descripciones textuales de la salida permiten al usuario comprobar y ajustar los resultados según sea necesario, una característica clave para un funcionamiento seguro y fiable. La Figura 14 muestra los resultados cualitativos de la simulación de inteligencias realizada sobre VirtualHome Puig et al. (2018). Los resultados muestran un plan de tareas razonable y flexibilidad para ajustar la salida, lo que demuestra la amplia aplicabilidad de nuestro enfoque.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 14: Ejemplo de ajuste de la secuencia de salida mediante retroalimentación generada automáticamente. Para nuestros experimentos hemos utilizado el simulador de código abierto VirtualHome. Dada la instrucción "Recoge la tarta de la mesa y caliéntala en la cocina". el planificador de tareas planifica una secuencia de funciones proporcionadas en VirtualHome. Si se detecta un error durante la ejecución, el planificador de tareas corrige su resultado con un mensaje de error generado automáticamente.

Mientras que el planificador de tareas garantiza la coherencia entre las secuencias de tareas, se requieren parámetros detallados para un funcionamiento satisfactorio en la realidad. Por ejemplo, el tipo de agarre es crucial para transportar el recipiente sin derramar el contenido, un parámetro que a menudo se ignora en los simuladores (véase el ejemplo de agarrar una tarta en la Fig. 14). Así, en nuestro sistema robótico, el usuario tiene que demostrar visualmente cada acción (Fig. 13; panel derecho). Estas tareas tienen parámetros predefinidos necesarios para su ejecución, que nuestro sistema de visión extrae del vídeo Wake et al. (2021b). Cabe señalar que nuestro sistema robótico no está diseñado para replicar con precisión las acciones humanas (es decir, teleoperación), sino más bien para hacer frente a una variedad de condiciones del mundo real, como los cambios en la posición del objeto. Por lo tanto, los parámetros extraídos de la demostración humana contienen no sólo las trayectorias de movimiento precisas, sino también información de disponibilidad indicativa del movimiento efectivo en el entorno (por ejemplo, puntos de ruta para evitar colisiones Wake et al. (2023a), tipo de agarre Wake et al. (2023e), y postura de la extremidad superior Sasabuchi et al. (2021); Wake et al. ( 2021a)). La postura de la extremidad superior es fundamental en robots con altos grados de libertad y está diseñada para presentar posturas predecibles para los humanos que coexisten con el robot operativo. Las secuencias de tareas con disponibilidad se convierten en un conjunto de habilidades robóticas reutilizables que pueden adquirirse mediante aprendizaje por refuerzo y ser ejecutadas por el robot Takamatsu et al. (2022).

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 15: Visión general del planificador de tareas multimodal que utiliza GPT-4V y GPT-4. El sistema procesa presentaciones de vídeo e instrucciones textuales para generar planes de tareas para la ejecución del robot.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 16: Ejemplo de salida del analizador de vídeo. Se extraen cinco fotogramas a intervalos fijos y se introducen en el GPT-4V. Describimos todo el proceso en la sección 6.2.2.

Al integrarlo con modelos de lenguaje visual (VLM), la planificación de tareas basada en modelos de lenguaje de gran tamaño (LLM) puede ampliarse para permitir sistemas robóticos más generalizados. A continuación, mostramos un ejemplo en el que utilizamos GPT-4V(ision) para ampliar el planificador de tareas anterior en un contexto de entrada multimodal (Fig. 15), en el que un humano realiza acciones que pretenden ser replicadas por un robot. En este documento sólo se muestra una parte de la sugerencia. Las indicaciones completas pueden encontrarse en microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts.

El proceso recibe un vídeo de demostración y un texto y, a continuación, emite una serie de acciones del robot. El analizador visual pretende comprender las acciones realizadas por el humano en el vídeo. Utilizamos el GPT-4V y proporcionamos un indicador para generar un estilo de comandos textuales similar a la comunicación entre humanos. La figura 16 ilustra cómo el uso de la entrada de texto permite al usuario proporcionar información para corregir los resultados de reconocimiento del GPT-4V. Esta característica, diseñada para mejorar la precisión de los resultados de reconocimiento, también permite un funcionamiento más robusto.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 17: Ejemplo de salida del analizador de escenas con GPT-4V. En la sección 6.2.2 se describe todo el proceso.

A continuación, el analizador de escenas compila el entorno de trabajo previsto en información textual basada en el primer fotograma (o imagen de entorno) del comando y los datos de vídeo. Esta información del entorno incluye una lista de nombres de objetos reconocidos por GPT-4V, atributos de los objetos que se pueden agarrar y relaciones espaciales entre los objetos. Aunque estos procesos computacionales son de caja negra en GPT-4V, se basan en el conocimiento de GPT-4V así como en la información de entrada/salida de imagen/texto. La figura 17 muestra un ejemplo de salida de nuestro analizador de escenas. Como se muestra, GPT-4V selecciona con éxito los objetos que son relevantes para la operación. Por ejemplo, cuando un humano recoloca un contenedor de spam sobre una mesa, ésta se incluye en la salida, mientras que la mesa se ignora en la tarea de apertura del frigorífico. Estos resultados sugieren que el analizador de escenas codifica la información de la escena basándose en las acciones humanas. Pedimos a GPT-4V que explique los resultados del proceso de selección de objetos y las razones que hay detrás de estas selecciones. En la práctica, comprobamos que este enfoque producía resultados razonables. Por último, basándose en las instrucciones textuales y la información del entorno, el planificador de tareas genera una serie de tareas Wake et al. (2023c).

Inteligencias incorporadas para la navegación robótica.

La tarea de la Navegación Lingüística Visual (VLN) es navegar una inteligencia encarnada para ejecutar comandos de lenguaje natural en un entorno 3D realista. Navegar en entornos 3D Zhu et al. (2017a); Mirowski et al. (2016); Mousavian et al. (2018); Hemachandra et al. (2015) es una capacidad esencial para los sistemas inteligentes móviles que operan en el mundo físico. En los últimos años, se ha propuesto un gran número de tareas y protocolos de evaluación Savva et al. (2017); Kolve et al. (2017); Song et al. (2017); Xia et al. (2018); Anderson et al. (2018a), como Anderson et al. (2018b) resumidos en. Visual Linguistic Navigation (VLN) Anderson et al. (2018a) se centra en la navegación basada en el lenguaje en entornos 3D reales. Para abordar la tarea Visual Linguistic Navigation (VLN), (Anderson et al., 2018a) desarrollaron un modelo de línea base secuencia a secuencia basado en la atención. Luego, (Wang et al., 2018) introdujeron un enfoque híbrido que combina el aprendizaje de refuerzo (RL) sin modelo y basado en modelo para mejorar la generalización del modelo. Finalmente, (Fried et al., 2018) proponen un modelo de seguidor de hablante que emplea el aumento de datos, el espacio de acción panorámico y la búsqueda de haz modificada para la navegación visual-lingüística (VLN) para establecer el rendimiento actual del estado del arte en el conjunto de datos Room-to-Room. Sobre la base de trabajos anteriores, presentamos Reinforcement Cross-Modal Matching (RCM) para Visual-Linguistic Navigation (VLN) en (Wang et al., 2019).El modelo RCM se basa en Fried et al. (2018), pero difiere en varias formas importantes:(1) RCM combina un nuevo tipo de aprendizaje de refuerzo (RL) de recompensas múltiples con Reinforcement Learning for Visual language navigation (VLN) con aprendizaje por imitación, mientras que el modelo de seguidor de hablante de Fried et al. (2018) utiliza solo aprendizaje supervisado, como se muestra en (Anderson et al., 2018a). (2) El navegador de inferencia RCM realiza una localización intermodal en lugar de un mecanismo de atención temporal para entradas unimodales. (3) El RCM Matching Critic es similar al altavoz en términos de diseño arquitectónico, pero el primero se utiliza para proporcionar la reconstrucción cíclica de recompensas intrínsecas para el aprendizaje por refuerzo (RL) y el entrenamiento de aprendizaje por imitación autosupervisado (SIL), mientras que el segundo se utiliza para aumentar los datos de entrenamiento para el aprendizaje supervisado. En (Wang et al., 2019), investigamos cómo abordar los tres desafíos clave del líder para esta tarea: localización cross-modal, retroalimentación para ill-posedness, y el problema de generalización. Como se muestra en la Fig. 18, proponemos un novedoso método de emparejamiento cross-modal de refuerzo que refuerza la localización cross-modal local y globalmente a través del aprendizaje por refuerzo (RL). En concreto, se utiliza un comentarista de correspondencia para proporcionar recompensas intrínsecas que fomenten la correspondencia global entre instrucciones y trayectorias, y un navegador de inferencia para realizar la localización intermodal en la escena visual local. La evaluación del conjunto de datos de referencia Visual Linguistic Navigation (VLN) muestra que nuestro modelo RCM supera significativamente al enfoque anterior 10% en SPL y alcanza un nuevo rendimiento de vanguardia. Para mejorar la capacidad de generalización de la estrategia de aprendizaje, introducimos además un enfoque de aprendizaje por imitación autosupervisado (SIL) para explorar entornos desconocidos imitando sus propias buenas decisiones anteriores. Demostramos que el aprendizaje por imitación autosupervisado (SIL) puede aproximarse a estrategias mejores y más eficaces, reduciendo así significativamente la diferencia de rendimiento de la tasa de éxito entre entornos vistos y no vistos (de 30,7% a 11,7%). Además, en Wang et al. (2019), introducimos un método de aprendizaje de imitación autosupervisado para la exploración para abordar explícitamente el problema de generalización, que no se ha investigado completamente en trabajos anteriores. Simultáneamente con este trabajo, Thomason et al. (2018); Ke et al. (2019); Ma et al. (2019a, b) investigaron tareas de navegación lingüística visual (VLN) en varios aspectos y Nguyen et al. (2018) introdujeron una variante de la tarea de navegación lingüística visual (VLN) para la necesidad de solicitar ayuda lingüística para encontrar objetos. Tenga en cuenta que somos los primeros en proponer la exploración de entornos no vistos para tareas de navegación lingüística visual (VLN).

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 18: Demostración de la tarea de navegación lingüística visual (VLN) embodied intelligences de Wang et al. (2019). Se muestran instrucciones, escenas visuales locales y trayectorias globales en la vista superior. El cuerpo inteligente no tiene acceso a la vista superior. La trayectoria A es la trayectoria de demostración que sigue la instrucción. Las trayectorias B y C son dos trayectorias diferentes ejecutadas por el cuerpo inteligente.

6.3 Sanidad

En el ámbito de la atención sanitaria, los Modelos de Lenguaje Amplio (LLM) y los Modelos de Lenguaje Visual (VLM) pueden actuar como inteligencias de diagnóstico, asistentes de atención al paciente e incluso ayudas terapéuticas, pero también se enfrentan a retos y responsabilidades de líder únicos. Dado que las inteligencias de IA tienen un enorme potencial para mejorar la atención a los pacientes y salvar vidas, la posibilidad de que se utilicen mal o se desplieguen precipitadamente puede poner en peligro a miles o incluso millones de personas en todo el mundo es igualmente peligrosa. Discutiremos algunas de las vías prometedoras para las inteligencias de IA en la atención sanitaria y abordaremos algunos de los dilemas clave a los que se enfrentan los líderes.

Diagnóstico de Intelligentsia.

Los chatbots médicos que utilizan Large Language Models (LLM) para diagnosticar a los pacientes han atraído recientemente una gran atención debido a la gran demanda de especialistas médicos y al potencial de los LLM para ayudar a clasificar y diagnosticar a los pacientes Lee et al. (2023). Las inteligencias conversacionales, especialmente las que pueden comunicar eficazmente información médica importante a una amplia gama de personas de diversas poblaciones de pacientes, tienen el potencial de proporcionar un acceso equitativo a la asistencia sanitaria a grupos históricamente desfavorecidos o marginados. Además, los médicos y los sistemas sanitarios de todo el mundo están muy sobrecargados y carecen de recursos suficientes, por lo que cientos de millones de personas de todo el planeta no tienen acceso a una atención sanitaria adecuada Organización Mundial de la Salud y Banco Mundial (2015). Las inteligencias de diagnóstico ofrecen una vía especialmente favorable para mejorar la atención sanitaria de millones de personas, ya que pueden construirse con la capacidad de comprender una amplia gama de lenguas, culturas y estados de salud. Los resultados preliminares sugieren que es posible entrenar grandes modelos lingüísticos (LMM) con conocimientos sanitarios utilizando datos de redes a gran escala Li et al. (2023f). Aunque se trata de una dirección apasionante, la perspectiva de las inteligencias de diagnóstico no está exenta de riesgos. En las secciones siguientes nos centraremos en los riesgos de las alucinaciones en los entornos sanitarios, así como en las posibles vías de solución.

Inteligencia de recuperación de conocimientos.

En el contexto médico, las alucinaciones de modelado son especialmente peligrosas y pueden incluso provocar lesiones graves o la muerte del paciente, dependiendo de la gravedad del error. Por ejemplo, si un paciente recibe por error un diagnóstico que sugiere una enfermedad que en realidad no padece, las consecuencias pueden ser catastróficas. Estas consecuencias pueden incluir el retraso o la inadecuación del tratamiento o, en algunos casos, la ausencia total de la intervención médica necesaria. La gravedad de una afección no diagnosticada o diagnosticada erróneamente puede conllevar un aumento de los costes sanitarios, un tratamiento prolongado que provoque más estrés físico y, en casos extremos, lesiones graves o incluso la muerte. Por lo tanto, los métodos que permiten una recuperación de conocimientos más fiable mediante cuerpos inteligentes Peng et al. (2023) o los métodos que generan texto de forma basada en la recuperación Guu et al. (2020) son direcciones prometedoras. El emparejamiento de inteligencias de diagnóstico con inteligencias de recuperación de conocimientos médicos tiene el potencial de reducir significativamente las alucinaciones al tiempo que mejora la calidad y la precisión de las respuestas de las inteligencias de diálogo de diagnóstico.

Telemedicina y monitorización a distancia.

La IA basada en el cuerpo inteligente también tiene un gran potencial en la telemedicina y la monitorización a distancia para mejorar el acceso a la atención sanitaria, mejorar la comunicación entre los profesionales sanitarios y los pacientes, y aumentar la eficiencia y reducir el coste de las frecuentes interacciones médico-paciente Amjad et al. (2023). Los médicos de atención primaria dedican mucho tiempo a examinar los mensajes, informes y correos electrónicos de los pacientes, que a menudo son irrelevantes o innecesarios para ellos. Las inteligencias de apoyo que pueden ayudar a categorizar los mensajes de médicos, pacientes y otros proveedores de atención sanitaria y ayudar a resaltar los mensajes importantes de todas las partes tienen un enorme potencial. El sector de la telemedicina y la sanidad digital tiene un enorme potencial de transformación al permitir que los sistemas inteligentes de IA corporal se coordinen con los pacientes, los médicos y otras inteligencias de IA.

6.3.1 Capacidad asistencial actual

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 19: Ejemplos de pistas y respuestas al utilizar GPT-4V en el ámbito de la comprensión de imágenes sanitarias. De izquierda a derecha: (1) imágenes de un escáner CT realizado por una enfermera y un médico, (2) una imagen sintética de un escáner ECG irregular y (3) una imagen del conjunto de datos de lesiones cutáneas ISIC Codella et al. (2018). Podemos ver que GPT-4V posee un conocimiento médico sustancial y es capaz de razonar sobre imágenes médicas. Sin embargo, es incapaz de diagnosticar ciertas imágenes médicas debido al entrenamiento de seguridad.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 20: Ejemplo de pistas y respuestas al utilizar GPT-4V en el ámbito de la comprensión de vídeos sanitarios. Introducimos los vídeos de ejemplo como cuadrículas de 2x2 y superponemos texto para indicar el orden de los fotogramas. En los dos primeros ejemplos, pedimos al GPT-4V que examinara los fotogramas del vídeo para detectar las actividades clínicas realizadas junto a la cama de un paciente voluntario. En el último ejemplo, intentamos pedir al GPT-4V que evaluara el vídeo de ecocardiografía, pero debido a su formación en seguridad, no proporcionó una respuesta detallada. Para mayor claridad, resaltamos en negrita el texto que describe la actividad de interés y abreviamos las respuestas innecesarias de los modelos. Los rostros de las personas aparecen en gris para proteger su intimidad.

Comprensión de la imagen.

En la Figura 19 se muestran las capacidades y limitaciones actuales de inteligencias multimodales modernas como la GPT-4V en un contexto sanitario. Podemos ver que, aunque el GPT-4V tiene un gran conocimiento interno sobre los equipos y procedimientos implicados en la atención hospitalaria, no siempre responde a las consultas más prescriptivas o de diagnóstico del usuario.

Comprensión de vídeo.

Investigamos el rendimiento de las inteligencias de modelado del lenguaje visual (VLM) para la comprensión de vídeos médicos en dos contextos. En primer lugar, investigamos la capacidad de las inteligencias del Modelo de Lenguaje Visual (VLM) para reconocer actividades importantes de atención al paciente en el espacio clínico. En segundo lugar, exploramos la aplicación del Modelo de Lenguaje Visual (VLM) a vídeos más especializados, como los ultrasonidos. En concreto, en la Figura 20, demostramos algunas de las capacidades y limitaciones actuales de GPT-4V para la atención hospitalaria y el análisis de vídeos médicos.

6.4 Inteligencias multimodales

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 21: La Inteligencia Multimodal Interactiva consta de cuatro pilares: interacción, habla, visión y lenguaje. El Cuerpo Inteligente Co-Pilot consta de diferentes servicios.1) Los servicios de interacción ayudan a desarrollar una plataforma unificada para operaciones automatizadas, cognición y toma de decisiones.2) Los servicios de audio integran el procesamiento de audio y voz en aplicaciones y servicios.3) Los servicios de visión identifican y analizan contenidos en imágenes, vídeos y tinta digital.4) Los servicios de lenguaje extraen significados de textos estructurados y no estructurados.

La integración de la visión y la comprensión del lenguaje es fundamental para el desarrollo de inteligencias complejas de IA multimodal. Esto incluye tareas como el subtitulado de imágenes, la respuesta a preguntas visuales, la generación de lenguaje en vídeo y la comprensión de vídeos. Nuestro objetivo es profundizar en estas tareas visual-lingüísticas y explorar los retos y oportunidades de liderazgo que presentan en el contexto de las inteligencias de IA.

6.4.1 Comprensión y generación del lenguaje de las imágenes

La comprensión del lenguaje de las imágenes es una tarea que consiste en interpretar el contenido lingüístico visual de una imagen dada y generar la descripción lingüística asociada. Esta tarea es crucial para desarrollar inteligencias artificiales que puedan interactuar con el mundo de una forma más parecida a la humana. Algunas de las tareas más populares son el subtitulado de imágenes Lin et al. (2014); Sharma et al. (2018); Young et al. (2014); Krishna et al. (2016), la representación de dedos Yu et al. (2016); Karpathy et al. (2014), y la respuesta a preguntas visuales Antol et al. (2015); Ren et al. (2015); Singh et al. (2019).

Recientemente, se han introducido tareas de respuesta a preguntas visuales intensivas en conocimiento como OKVQA Marino et al. (2019), KB-VQA Wang et al. (2015), FVQA Wang et al. (2017) y WebQA Chang et al. (2021). Las inteligencias multimodales deben ser capaces de reconocer objetos en una imagen, comprender sus relaciones espaciales, generar frases descriptivas precisas sobre la escena y utilizar habilidades de inferencia para manejar el razonamiento visual intensivo en conocimiento. Esto requiere no sólo habilidades de reconocimiento de objetos, sino también una comprensión profunda de las relaciones espaciales, la semántica visual y la capacidad de mapear estos elementos visuales a estructuras lingüísticas con conocimiento del mundo.

6.4.2 Comprensión y generación de vídeo y lenguaje

Generación de lenguaje de vídeo.

La subtitulación o narración de vídeo es la tarea de generar frases coherentes para una serie de fotogramas de vídeo. Inspiradas por el éxito del modelo base recurrente a gran escala utilizado en tareas de vídeo y lenguaje, las variantes del modelo de aumento impulsado por el intelecto muestran resultados prometedores en tareas de generación de lenguaje en vídeo. El reto fundamental es que la robustez del modelo neural codificador-decodificador no funciona bien para la narración visual, ya que la tarea requiere una comprensión exhaustiva del contenido de cada imagen y de las relaciones entre los distintos fotogramas. Un objetivo importante en este campo es crear un modelo de síntesis de texto inteligente y consciente del cuerpo que pueda codificar eficazmente secuencias de fotogramas y generar un párrafo multisentencia temáticamente coherente.

Comprensión de vídeo.

La comprensión de vídeos amplía el alcance de la comprensión de imágenes a los contenidos visuales dinámicos. Se trata de interpretar y razonar sobre secuencias de fotogramas de un vídeo, a menudo en conjunción con información sonora o textual que lo acompaña. Los alumnos inteligentes deben ser capaces de interactuar con diversas modalidades visuales, textuales y sonoras para demostrar su comprensión avanzada de contenidos de vídeo. Las tareas en este ámbito incluyen la subtitulación de vídeos, la respuesta a preguntas sobre vídeos y el reconocimiento de actividades. Los retos a los que se enfrenta el líder en comprensión de vídeo son múltiples. Incluyen la alineación temporal del contenido visual y verbal, el procesamiento de fotogramas secuenciales largos y la interpretación de actividades complejas que se desarrollan a lo largo del tiempo. En cuanto al audio, las inteligencias pueden procesar las palabras habladas, el ruido de fondo, la música y la entonación para comprender el estado de ánimo, el escenario y los matices del contenido del vídeo.

Los trabajos anteriores se han centrado en la creación de modelos de base de vídeo utilizando los datos de entrenamiento de lenguaje de vídeo existentes disponibles en línea Li et al. (2020, 2021b); Fu et al. (2022); Bain et al. (2021); Zellers et al. (2021, 2022); Fu et al. (2023). Sin embargo, el apoyo a estos procesos y funciones de entrenamiento es difícil debido a la naturaleza limitada y a menudo inconsistente de estos conjuntos de datos. Los modelos de base de vídeo se diseñan utilizando objetivos de preentrenamiento de máscara y contraste y luego se adaptan a sus respectivas tareas. A pesar de mostrar excelentes resultados en pruebas de referencia multimodales, estos modelos tienen dificultades en tareas exclusivamente de vídeo, como el reconocimiento de acciones, porque se basan en datos limitados de texto de vídeo construidos a partir de transcripciones de audio ruidosas. Esta limitación también conlleva una falta de robustez y de capacidad de razonamiento detallado que suelen poseer los grandes modelos lingüísticos.

Otros enfoques, similares a los utilizados en la comprensión del lenguaje de las imágenes, utilizan las potentes capacidades de razonamiento y los amplios conocimientos de los grandes modelos lingüísticos para mejorar distintos aspectos de la interpretación de vídeo. La tarea de la comprensión de vídeo se simplifica con modelos basados únicamente en el lenguaje, como ChatGPT y GPT4, o modelos basados en el lenguaje de imágenes, como GPT4-V, que tratan las modalidades de audio, vídeo y lingüística como tipos de datos de entrada interpretables por separado y posicionan a las inteligencias como potentes modelos de código abierto. Por ejemplo, Huang et al. (2023c); Li et al. (2023g) convierten la comprensión de vídeo en fórmulas de respuesta a preguntas de procesamiento del lenguaje natural (PLN) mediante la textualización del contenido de vídeo utilizando modelos de clasificación/detección/subtitulación visual de código abierto.Lin et al. (2023) integran GPT4-V con herramientas dedicadas para la visión, el audio y el habla Lin et al. (2023) integran GPT4-V con herramientas específicas de visión, audio y voz para facilitar tareas complejas de comprensión de vídeo, como la creación de guiones de acciones y manipulaciones de personajes en vídeos de larga duración.

Estudios paralelos exploraron la generación de conjuntos de datos a escala a partir de grandes modelos y la posterior aplicación de ajustes de instrucción visual sobre los datos generados Liu et al. (2023c); Li et al. (2023c); Zhu et al. (2023). A continuación, el vídeo se representó utilizando un gran número de modelos perceptuales expertos de audio, habla y visuales. El habla se transcribió utilizando una herramienta de reconocimiento automático del habla y las descripciones del vídeo y los datos asociados se generaron utilizando varios modelos de etiquetado, posicionamiento y subtitulado Li et al. (2023g); Maaz et al. (2023); Chen et al. (2023); Wang et al. (2023f). Estas técnicas demuestran cómo la adaptación de las instrucciones de un modelo de lenguaje de vídeo en un conjunto de datos generado puede mejorar las capacidades de razonamiento y comunicación en vídeo.

6.4.3 Experimentos y resultados

Modelos intensivos en conocimiento: Una tarea de conocimiento neuronal intensivo que combina el conocimiento necesario de las anotaciones humanas para apoyar tareas de recuperación intensivas en conocimiento, como se introdujo en INK Park et al. (2022) y KAT Gui et al. (2022a).
Inteligencias multimodales: Existe un interés creciente por los modelos lingüísticos multimodales, como Chameleon Lu et al. (2023) y MM-React Yang et al. (2023c).
Ajuste del mando visual: VCL Gui et al. (2022b), Mini-GPT4 Zhu et al. (2023), MPLUG-OWL Ye et al. (2023b), LSKD Park et al. (2023c) para generar conjuntos de datos de ajuste de instrucciones a nivel de imagen.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 22: Ejemplo de la tarea Conocimiento neuronal intensivo (INK) Park et al. (2022), que utiliza el conocimiento para identificar texto relacionado con imágenes a partir de un conjunto de textos candidatos. Nuestra tarea implica utilizar conocimientos visuales y textuales recuperados de la Web y conocimientos anotados manualmente.

Inteligencias intensivas en conocimiento.

Como se muestra en las figuras 22 y 23, las tareas de respuesta a preguntas visuales basadas en el conocimiento y de recuperación del lenguaje visual son tareas desafiantes en el aprendizaje automático multimodal que requieren un conocimiento externo más allá del contenido de la imagen. La investigación reciente sobre Transformadores a gran escala se ha centrado principalmente en maximizar la eficiencia del almacenamiento de información sobre los parámetros del modelo. Esta línea de investigación explora un aspecto diferente: si los Transformers multimodales pueden utilizar conocimiento explícito en su proceso de toma de decisiones. Los métodos de preentrenamiento basados en Transformers han demostrado un excelente éxito en el aprendizaje implícito de representaciones del conocimiento a través de múltiples modalidades. Sin embargo, los enfoques tradicionales (principalmente unimodales) han investigado sobre todo la recuperación de conocimiento y la posterior predicción de respuestas, lo que plantea dudas sobre la calidad y relevancia del conocimiento recuperado, así como sobre la integración de los procesos de razonamiento que utilizan tanto conocimiento implícito como explícito. Para abordar estas cuestiones, presentamos el Transformador de Aumento del Conocimiento (KAT), que supera a otros modelos en 6% en la tarea multimodal de dominio abierto OK-VQA 2022.KAT combina el conocimiento implícito de GPT3 con el conocimiento explícito de sitios web mediante una arquitectura de codificador-decodificador y permite el uso de ambos tipos de conocimiento durante el razonamiento concurrente durante la generación de respuestas utilizando tanto el conocimiento implícito como el explícito. razonamiento concurrente durante la generación de respuestas utilizando ambos tipos de conocimiento. Además, la combinación de conocimiento explícito mejora la interpretabilidad de las predicciones del modelo. El código y el modelo preentrenado pueden consultarse en https://github.com/guilk/KAT.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 23: Modelo KAT Gui et al. (2022a) recuperan entradas de conocimiento de la base de conocimiento explícito utilizando un módulo basado en el aprendizaje por contraste y recuperan conocimiento implícito con pruebas de apoyo utilizando GPT-3. La integración del conocimiento es manejada por el respectivo Transformador codificador y la generación de respuestas es realizada conjuntamente por el módulo de entrenamiento y razonamiento de extremo a extremo y el Transformador decodificador.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 24: Arquitectura general del modelo VLC Gui et al. (2022b). Nuestro modelo consta de tres módulos: (1) proyecciones específicas de la modalidad. Utilizamos proyecciones lineales simples para incrustar imágenes parcheadas y una capa de incrustación de palabras para incrustar texto tokenizado; (2) un codificador multimodal. Utilizamos el ViT de 12 capas de Dosovitskiy et al. (2021) inicializado a partir de MAE He et al. (2022) (ImageNet-1K sin etiquetas) como columna vertebral; (3) decodificador específico de la tarea. Aprendemos nuestra representación multimodal mediante el modelado de imagen/lenguaje enmascarado y la correspondencia imagen-texto utilizada únicamente durante el preentrenamiento. Utilizamos un MLP de 2 capas para ajustar nuestro codificador multimodal a las tareas posteriores. Es importante destacar que el objetivo de modelado de imágenes enmascaradas es importante en la segunda fase del preentrenamiento, no sólo para inicializar el transformador visual.

Lenguaje visual Inteligencias transformadoras.

A continuación, presentamos el modelo "Training Visual Language Transformer from Captions" (VLC) de Gui et al. (2022b), un transformador que se entrena previamente utilizando únicamente pares de pies de foto. Aunque VLC utiliza únicamente capas de proyección lineal simples para la incrustación de imágenes, VLC consigue resultados competitivos en diversas tareas de lenguaje visual en comparación con otros métodos que se basan en detectores de objetos o redes CNN/ViT supervisadas. VLC consigue resultados competitivos en diversas tareas de lenguaje visual en comparación con otros métodos basados en detectores de objetos o redes CNN/ViT supervisadas. Mediante amplios análisis, exploramos el potencial de VLC como inteligencia transformadora del lenguaje visual. Por ejemplo, demostramos que la representación visual de VLC es muy eficaz para la clasificación de ImageNet-1K, y nuestras visualizaciones confirman que VLC puede emparejar con precisión trozos de imágenes con los tokens de texto correspondientes. El escalado del rendimiento con datos de entrenamiento adicionales pone de manifiesto el gran potencial de desarrollo de modelos de lenguaje visual a gran escala, con supervisión débil y de dominio abierto.

6.5 Experimentos de videolenguaje

Para comprender la utilidad de utilizar modelos de lenguaje de imágenes grandes (LLM) preentrenados para la comprensión de vídeo, ampliamos temporalmente y ajustamos InstructBLIP Dai et al. (2023) para la generación de subtítulos de vídeo. En concreto, ampliamos el codificador visual de InstructBLIP (EVA-CLIP-G Sun et al. (2023b)) utilizando el mismo esquema de atención espacio-temporal segmentada que Frozen in Time Bain et al. (2021), y mantuvimos el Q-former y el modelo de lenguaje grande (LLM) durante el entrenamiento (Flan-T5-XL Chung et al. (2022)) congelados. Congelamos todas las capas espaciales del codificador visual y mantuvimos la capa temporal sin congelar durante el entrenamiento de los subtítulos. Esto permite a nuestro modelo tomar imágenes y vídeos como entrada (igualando el rendimiento a nivel de imagen de InstructBLIP). Nos entrenamos con un subconjunto de 5 millones de subtítulos de vídeo de WebVid10M Bain et al. (2021). En la Figura 25 se muestran dos ejemplos de resultados. Sin embargo, las inteligencias existentes no son capaces de comprender plenamente los detalles visuales precisos y detallados del contenido de vídeo. Los métodos de ajuste fino de comandos visuales adolecen de limitaciones similares en el sentido de que carecen de capacidades perceptivas genéricas de nivel humano que aún deben ser abordadas por modelos e inteligencias multimodales.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 25: Ejemplo de pistas y respuestas al utilizar la variante de ajuste fino de vídeo de InstructBLIP (el método descrito en la sección 6.5). Nuestro modelo es capaz de generar respuestas textuales largas que describen la escena y es capaz de responder a preguntas relacionadas con la temporalidad de los acontecimientos del vídeo.

Los modelos de ajuste de comandos resultan prometedores a la hora de resumir con precisión las acciones visibles en el vídeo e identificar eficazmente acciones como la de la "persona sentada en el banco", como se muestra en la figura 25. Sin embargo, a veces añaden detalles incorrectos, como la "persona que sonríe a la cámara", lo que revela una deficiencia a la hora de captar el tema del diálogo o la atmósfera del vídeo, elementos que serían obvios para un observador humano. Esta carencia pone de manifiesto otra limitación clave: la omisión de las modalidades de audio y habla que enriquecerían la comprensión del vídeo a través del contexto, ayudando a realizar interpretaciones más precisas y evitando tales tergiversaciones. Para colmar esta laguna es necesaria una integración holística de las modalidades disponibles que permita a las inteligencias multimodales alcanzar un nivel de comprensión similar al de la percepción humana y garantizar un enfoque plenamente multimodal de la interpretación de vídeo.

Inteligencias audio-video-verbales basadas en GPT-4V.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 26: Las inteligencias audio-multimodales descritas en el apartado 6.5. El contenido ilusorio aparece resaltado en rojo. Utilizamos GPT-4V para generar 1) resúmenes de videochat con fotogramas de vídeo, 2) resúmenes de vídeo con subtítulos de fotogramas y 3) resúmenes de vídeo con subtítulos de fotogramas e información de audio.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 27: Una inteligencia multimodal interactiva que combina modalidades visuales, auditivas y textuales para la comprensión de vídeos. Nuestro proceso extrae ilusiones negativas difíciles para generar consultas difíciles para el reto VideoAnalytica. Para obtener más información sobre el conjunto de datos Interactive Audio-Video-Language Intelligentsia, véase la sección 9.2.

A continuación, seguimos el enfoque descrito en Lin et al. (2023) para evaluar la capacidad de la GPT-4V para actuar como una inteligencia multimodal que integra visión, audio y habla para una comprensión detallada y precisa del vídeo. Los resultados representados en la Figura 26 comparan el rendimiento de varias inteligencias de vídeo en una tarea de resumen de vídeo. El modelo de ajuste fino de instrucciones de vídeo (Li et al., 2023g) proporciona contenidos precisos, pero carece de exhaustividad y detalle, ya que omite acciones específicas como el uso sistemático de una escoba para medir la altura de un árbol.

Para mejorar la precisión de las descripciones de vídeo, utilizamos GPT-4V para subtitular los fotogramas, mientras que el audio y su transcripción proceden de OpenAI Susurro Modelo. A continuación, pedimos a GPT-4V que creara resúmenes de vídeo utilizando subtítulos de sólo fotograma, seguidos de subtítulos de sólo fotograma y transcripción de audio. Inicialmente, observamos que el subtitulado sólo de fotogramas daba lugar a sucesos ficticios, como que alguien mordiera un palo en el tercer segmento. Estas imprecisiones persistían en los resúmenes de vídeo, como descripciones del tipo "en un giro interesante, lo mordió mientras lo sujetaba horizontalmente". Sin la entrada de audio, las inteligencias son incapaces de corregir estos errores en los subtítulos, lo que da lugar a descripciones semánticamente correctas pero visualmente engañosas.

Sin embargo, cuando proporcionamos una transcripción de audio a un organismo inteligente, éste puede describir con precisión el contenido e incluso captar movimientos corporales detallados, como "girar la escoba perpendicularmente al cuerpo y hacia abajo". Este nivel de detalle es mucho más informativo y permite al espectador comprender mejor el propósito y los detalles clave del vídeo. Estos resultados ponen de relieve la importancia de integrar interacciones de audio, vídeo y verbales para desarrollar inteligencias multimodales de alta calidad, y el GPT-4V constituye una base prometedora para dicha comprensión e interacción multimodal avanzada.

Inteligencias multimodales corporales basadas en GPT-4V.

Como se muestra en la Figura 27, utilizamos principalmente StackOverflow para obtener la pregunta inicial y, a continuación, utilizamos la API "Bing search" para recuperar el vídeo y el audio relacionados con la pregunta. A continuación, utilizamos principalmente GPT-4V para obtener información de texto relevante y descripciones de vídeo de alto nivel. Por otro lado, utilizamos ASR para convertir el audio de los fotogramas clave en descripciones de fragmentos de bajo nivel de los fotogramas clave. Por último, utilizamos GPT-4V para generar "ilusiones" convincentes que puedan utilizarse como consultas negativas difíciles para tareas de cuestionario de vídeo. Permitimos interactuar y realizar preguntas en el fotograma actual del vídeo, así como resumir la descripción general de alto nivel del vídeo. Durante el proceso de razonamiento, también incorporamos conocimientos externos obtenidos mediante búsquedas en Internet para mejorar las respuestas.

A continuación se describen los principales avisos de GPT-4V. El mensaje completo está sangrado para mayor claridad; ocupa más de una página.

GPT-4V es un asistente diseñado para proporcionar detalles descriptivos, informativos y exhaustivos en vídeos para personas con discapacidad visual que pueden oír el vídeo pero no verlo. Este trabajo se realiza sintetizando anotaciones dadas y emitiéndolas como JSON para crear descripciones de vídeo densas y de alta calidad. En concreto, GPT-4V recibirá la consulta original utilizada para buscar el vídeo, el título del vídeo, la descripción, la transcripción del audio y descripciones potencialmente ruidosas en momentos específicos del vídeo. Los distintos segmentos del mismo vídeo se anotan como "[tiempo inicio - tiempo fin (en segundos)] 'texto'". Se utiliza una combinación de transcripciones y descripciones para inferir los detalles exactos y la presentación visual de lo que puede estar ocurriendo en el vídeo.El GPT-4V combinará o dividirá las marcas de tiempo según sea necesario para proporcionar la segmentación óptima del vídeo.

Expectativas para la salida GPT-4V:

Descripciones orientadas a la acción: dé prioridad a las acciones, movimientos y demostraciones físicas verosímiles, enriqueciendo su narración con señales visuales dinámicas.
Cobertura completa del vídeo: proporciona una experiencia de audiodescripción continua y coherente que cubre cada momento del vídeo, garantizando que no se omita ningún contenido.
Segmentación sucinta: construya sus descripciones en segmentos centrados y sucintos de 1-2 frases cada uno para comunicar eficazmente la acción visual sin entrar en demasiados detalles.
Síntesis audiovisual contextual: mezcla perfecta de contenido de audio verbal con elementos visuales inferidos para formar una narración que refleje la actividad subyacente en la pantalla.
Especulación imaginativa y verosímil: infunda a sus descripciones detalles visuales creativos pero verosímiles que se correspondan con el audio para mejorar la comprensión de la escena.
Correspondencia precisa del código de tiempo: alinee sus fragmentos descriptivos con el código de tiempo correspondiente, asegurándose de que los presuntos detalles visuales están sincronizados con la línea de tiempo de la narración sonora.
Narración confiada: presentar las descripciones con confianza, como si la supuesta visualización estuviera sucediendo, para generar confianza en el oyente.
Omitir detalles irrazonables: excluir descripciones de objetos o acontecimientos que no encajen razonablemente en el contexto establecido por la información sonora y visual.

El resultado final debe estar estructurado en formato JSON y contener una lista de diccionarios, cada uno de los cuales detallará un segmento del vídeo.

['start': , 'end': , 'text': ""].

Para la creación de MC: nuestra tarea consiste en crear preguntas de opción múltiple para una tarea de recuperación de vídeo a texto que pueda resolverse fácilmente mirando el título y leyendo la transcripción del audio. Para ello, obtendremos la consulta original utilizada para obtener el vídeo, la descripción, la transcripción del audio y una descripción potencialmente ruidosa de un momento concreto del vídeo.

Formato para la transcripción de audio: - [tiempo de inicio-fin en segundos] "Transcribir"
Formato de la descripción ruidosa: - [tiempo en segundos] "descripción"

Imploramos a GPT-4V que genere cuatro consultas, en las que la consulta primaria esté alineada con el contenido del vídeo y las otras tres consultas negativas sean ligeramente diferentes de nuestra consulta primaria. La selección de la consulta principal no debe limitarse a escuchar la transcripción de audio, por ejemplo, cuando la consulta original textual está incluida en la transcripción de audio. Las consultas negativas deben estar estrechamente relacionadas con el contenido del vídeo, pero no totalmente alineadas con él, y requieren una comprensión visual del vídeo para distinguirlas. Por ejemplo, modificar la semántica de forma sutil para que sea necesario ver el vídeo en lugar de sólo escucharlo para seleccionar la consulta original. Compile cuatro consultas en enunciados similares a subtítulos, siendo la primera la consulta original reformulada.

Piense paso a paso cómo utilizar la información del vídeo para formular afirmaciones negativas. Y demostrar que las consultas negativas son incorrectas, pero siguen siendo opciones convincentes que requieren una comprensión cuidadosa del vídeo. Y cómo los humanos no eligen accidentalmente la consulta negativa en lugar de la consulta original.

Por último, presentamos este trabajo en forma del siguiente análisis y 4 consultas. No es necesario generar cómo se traducen las consultas originales.

Análisis de vídeo: xxx
Consultas: [consulta1, consulta2, consulta3, consulta4]
Razón: xxx

6.6 Inteligencia para el procesamiento del lenguaje natural (PLN)

6.6.1 Inteligencia de grandes modelos lingüísticos (LLM)

Reconocer instrucciones de tareas y actuar en consecuencia ha sido un reto fundamental en la IA interactiva y el procesamiento del lenguaje natural durante décadas. Con los recientes avances en aprendizaje profundo, cada vez hay más interés en trabajar juntos en estas áreas para mejorar la colaboración entre humanos y ordenadores. Identificamos tres direcciones específicas, así como otras, para mejorar las inteligencias basadas en el lenguaje:

Uso de herramientas y consultas de la base de conocimientos. Esta dirección subraya la importancia de integrar bases de conocimiento externas, búsquedas en Internet u otras herramientas útiles en el proceso de razonamiento de las inteligencias de IA. Al utilizar datos estructurados y no estructurados procedentes de diversas fuentes, las inteligencias pueden mejorar su comprensión y ofrecer respuestas más precisas y contextualmente pertinentes. Además, fomenta la capacidad de las inteligencias para buscar información de forma proactiva cuando se enfrentan a situaciones o consultas desconocidas, garantizando así una respuesta más completa e informada. Algunos ejemplos son Toolformer Schick et al. (2023) y Retrieve What You Need Wang et al. (2023g).
Mejora del razonamiento y la planificación corporal inteligente. Mejorar las capacidades de razonamiento y planificación de las inteligencias es esencial para una colaboración eficaz entre humanos y máquinas. Esto implica desarrollar modelos capaces de comprender órdenes complejas, deducir la intención del usuario y predecir posibles escenarios futuros. Esto puede lograrse pidiendo a las inteligencias que reflexionen sobre acciones y fallos pasados, como en ReAct Yao et al. (2023a), o construyendo los procesos de pensamiento de las inteligencias como una forma de búsqueda Yao et al. (2023b). Al modelar diferentes resultados y evaluar las consecuencias de diversas acciones, las inteligencias pueden tomar decisiones más informadas y relevantes para el contexto.
Integración de sistemas y retroalimentación humana. Las inteligencias artificiales suelen operar en dos entornos principales: uno que proporciona señales claras sobre la eficacia de sus acciones (retroalimentación del sistema) y otro que trabaja con humanos que pueden proporcionar críticas verbales (retroalimentación humana). Esta dirección pone de relieve la necesidad de mecanismos de aprendizaje adaptativo que permitan a las inteligencias mejorar sus estrategias y corregir errores, por ejemplo, en la AutoGen En Wu et al. (2023). La capacidad de aprender y adaptarse continuamente a partir de diversas fuentes de información garantiza que las inteligencias sigan siendo útiles y coherentes con las necesidades de los usuarios.

6.6.2 Inteligencia genérica de grandes modelos lingüísticos (LLM)

Reconocer y comprender el contenido corporal inteligente y el lenguaje natural ha sido un reto fundamental en la IA interactiva y el procesamiento del lenguaje natural durante décadas. Con los recientes avances en el aprendizaje profundo, cada vez hay más interés en estudiar estas dos áreas juntas para obtener una comprensión más profunda de la planificación corporal inteligente o la retroalimentación humana para el razonamiento del conocimiento y la generación de lenguaje natural. Estos son componentes clave de muchas inteligencias HCI, como "AutoGen" Wu et al. (2023) y "Retrieve What You Need" Wang et al. (2023g).

6.6.3 Las instrucciones siguen las inteligencias del Gran Modelo Lingüístico (LLM)

Además, la creación de inteligencias LLM que puedan entrenarse para seguir eficazmente instrucciones humanas se ha convertido en un importante campo de investigación. Los modelos iniciales utilizaban la retroalimentación humana para entrenar modelos de recompensa de agentes que imitaran las preferencias humanas mediante un proceso denominado Aprendizaje por Refuerzo Basado en la Retroalimentación Humana (RLHF), Ouyang et al. (2022). Este proceso genera modelos como InstructGPT y ChatGPT. Con el fin de entrenar más eficientemente las instrucciones para que sigan las inteligencias LLM sin necesidad de etiquetado humano, los investigadores han desarrollado un método de ajuste fino de instrucciones más eficiente que entrena las inteligencias LLM directamente en pares de instrucción/respuesta que son generados por humanos, por ejemplo, Dolly 2.0 ^5^^5^Dolly 2.0 Blog Post Link o derivados automáticamente de LLM, por ejemplo, Alpaca Taori et al. (2023). Mostramos el proceso general de entrenamiento de Alpaca en la Figura 28.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 28: Esquema de entrenamiento utilizado para entrenar el modelo Alpaca Taori et al. (2023). A alto nivel, los LLM disponibles se utilizan para generar un gran número de ejemplos de seguimiento de instrucciones a partir de un pequeño conjunto de tareas semilla. A continuación, los ejemplos generados de seguimiento de instrucciones se utilizan para ajustar las instrucciones a los LLM disponibles para los pesos del modelo subyacente.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 29: Modelo de cuerpo inteligente de Transformer lógico Wang et al. (2023e). Integramos el módulo de razonamiento lógico en el modelo de resumen abstracto basado en Transformer con el fin de capacitar a las inteligencias lógicas para razonar sobre la lógica del texto y del diálogo, permitiéndoles así generar resúmenes abstractos de mayor calidad y reducir los errores factuales.

6.6.4 Experimentos y resultados

A pesar de la creciente popularidad de los sistemas conversacionales y de autorretroalimentación, estas formas de IA siguen siendo poco eficaces a la hora de generar respuestas objetivamente correctas a partir de su propio conocimiento implícito, por lo que a menudo utilizan herramientas externas, como mecanismos de búsqueda en Internet y de recuperación de conocimientos, para aumentar sus respuestas al razonar. Resolver este problema ayudará a crear una experiencia más atractiva para los usuarios en muchas aplicaciones de la vida real. En las conversaciones sociales (por ejemplo, en plataformas de medios sociales como Instagram y Facebook), o en sitios de preguntas y respuestas (por ejemplo, Ask o Quora), las personas suelen interactuar con otras a través de una serie de comentarios y buscando en la Web información y conocimientos relevantes para la discusión. Por lo tanto, la tarea de generar rondas de conversación en este contexto no se guía únicamente por los modelos y tareas tradicionales de la PNL, sino que utiliza inteligencias para generar diálogos a través de comportamientos inteligentes que reflejan la búsqueda y adquisición de conocimientos Peng et al. (2023). De este modo, las inteligencias inteligentes para tareas de PLN amplían la descripción de la tarea y mejoran la interpretabilidad de la respuesta añadiendo pasos explícitos de búsqueda y recuperación de conocimiento durante el diálogo. La integración de estas inteligencias de búsqueda y recuperación como retroalimentación durante un diálogo ayudaría a facilitar más y más profundamente las interacciones sociales entre humanos e inteligencias Wang et al. (2023e). Como se muestra en la Fig. 29, introducimos un nuevo paradigma de modelado para el modelo de lenguaje Transformer, que detecta y extrae importantes estructuras lógicas e información del texto de entrada, y luego las integra en las incrustaciones de entrada por medio de una elaborada proyección lógica jerárquica de múltiples capas con el fin de infundir las estructuras lógicas en el modelo de lenguaje pre-entrenado como inteligibles NLP.Wang et al. ( 2023e) propusieron un enfoque novedoso para construir un modelo de lenguaje Transformer a través de una combinación de detección lógica, mapeo lógico y proyección lógica en capas para laIncorporación de datos lógicosA continuación, se puede desarrollar el nuevo modelo para actualizar todos los modelos de lenguaje Transformer existentes al modeloTransformador lógicopara mejorar sistemáticamente su rendimiento. Las inteligencias lógicas Transformer propuestas consiguen sistemáticamente un mejor rendimiento que sus modelos Transformer de referencia gracias a una comprensión más profunda de la estructura lógica del texto. Para los usuarios humanos, a menudo estos aspectos son más importantes para proporcionar diálogos significativos e interesantes mediante la coordinación de inteligencias entre el diálogo y la recuperación de información. Profundizando en el procesamiento del lenguaje natural, en este tema se analizarán los avances y las clasificaciones para hacer que los LLM sean más inteligentes y se adapten mejor a diversas tareas centradas en el lenguaje.

Un sistema de preguntas y respuestas (QA) de dominio abierto suele seguir las siguientes pautasBuscar y leerEl paradigma en el queretrieverse utiliza para recuperar pasajes relevantes de un gran corpus y luegolector (software)generando respuestas basadas en pasajes recuperados y preguntas originales. En Wang et al. (2023g), proponemos un marco sencillo y novedoso para el aprendizaje mutuo mediante un marco denominadoselector de conocimientosMódulos intermedios para mejorar las inteligenciasBuscar y leerpara mejorar el rendimiento del modelo, utilizamos el aprendizaje por refuerzo para entrenar el módulo. Combinando elselector de conocimientosintroducirRecuperar y luego Lectorcuyo objetivo es construir un pequeño subconjunto de párrafos que retengan información relevante para la pregunta. Como se muestra en la Figura 30, las inteligencias del selector de conocimientos se entrenan como un componente de nuestro novedoso marco de aprendizaje mutuo que entrena iterativamente a los selectores de conocimientos y a los lectores. Adoptamos un enfoque sencillo y novedoso que utiliza gradientes de política para optimizar las inteligencias del selector de conocimientos, utilizando la retroalimentación del lector para entrenarlo en la selección de un pequeño conjunto de pasajes ricos en información. Este enfoque evita la búsqueda por fuerza bruta o el diseño manual de heurísticas sin necesidad de pares de documentos de consulta anotados para la supervisión. Demostramos que el entrenamiento iterativo de las inteligencias del lector y del selector de conocimientos mejora el rendimiento de las predicciones en una serie de pruebas comparativas públicas de preguntas y respuestas de dominio abierto.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Fig. 30: Arquitectura de un marco de aprendizaje mutuo propuesto para inteligencias de PNL Wang et al. (2023g). En cada época, se ejecutan alternativamente la fase 1 y la fase 2. Durante la fase 1, los parámetros del modelo lector se mantienen fijos y sólo se actualizan los pesos de los selectores de conocimiento. Por el contrario, durante la fase 2, los parámetros del modelo lector se ajustan mientras se mantienen congelados los pesos de los selectores de conocimiento.

7 IA de agentes en distintas modalidades, ámbitos y realidades

7.1 Agente para la comprensión intermodal

La comprensión multimodal es un reto importante a la hora de crear un agente de IA de uso general debido a la falta de conjuntos de datos a gran escala que contengan la visión, el lenguaje y el comportamiento del agente. En términos más generales, los datos de entrenamiento de los agentes de IA suelen ser específicos de cada modalidad. Esto hace que la mayoría de los sistemas multimodales modernos utilicen combinaciones de submódulos congelados. Algunos ejemplos notables son Flamingo Alayrac et al. (2022), BLIP-2 Li et al. (2023c), y LLaVA Liu et al. (2023c), todos los cuales hacen uso de un gran modelo de lenguaje congelado (LLM) y un codificador visual congelado. Estos submódulos se entrenan individualmente en conjuntos de datos separados y, a continuación, la capa de adaptación se entrena para codificar el codificador visual en el espacio de incrustación del modelo de lenguaje de gran tamaño (LLM). Para seguir avanzando en la comprensión intermodal de los agentes de IA, es posible que haya que cambiar la estrategia de utilizar LLM congelados y codificadores visuales. De hecho, el reciente modelo visual-lingüístico RT-2 muestra importantes mejoras de rendimiento al realizar operaciones en el ámbito de la robótica cuando se adaptan conjuntamente el codificador visual y el Gran Modelo de Lenguaje (LLM) tanto para tareas robóticas como visuales-lingüísticas Brohan et al. (2023).

7.2 Agente para la comprensión entre dominios

Un reto clave en la creación de un agente genérico es la apariencia visual única y los diferentes espacios de acción en distintos dominios. Los seres humanos son capaces de interpretar imágenes y vídeos procedentes de diversas fuentes, como el mundo real, los videojuegos y ámbitos especializados como la robótica y la atención sanitaria, una vez que están familiarizados con las particularidades de estos dominios. Sin embargo, los grandes modelos lingüísticos (LLM) y los modelos lingüísticos visuales (VLM) existentes suelen mostrar discrepancias significativas entre los datos con los que se entrenan y los distintos dominios en los que se aplican. En particular, el entrenamiento de modelos de agentes para predecir acciones específicas plantea retos considerables cuando se trata de desarrollar una estrategia única que pueda aprender eficazmente múltiples sistemas de control en distintos dominios. En general, el enfoque adoptado en la mayoría de los trabajos modernos a la hora de aplicar un sistema dentro de un dominio específico consiste en comenzar con un modelo base preentrenado y, a continuación, afinar un modelo independiente para cada dominio específico. De este modo no se captan los puntos en común entre dominios y se reduce el conjunto total de datos para el entrenamiento, en lugar de utilizar los datos de cada dominio.

7.3 Agentes interactivos para la intermodalidad y la interrealidad

El desarrollo de agentes de IA capaces de comprender y realizar tareas en distintas realidades es un reto constante, aunque recientemente se han logrado algunos éxitos en la generación de imágenes y escenas Huang et al. (2023a). En particular, es un reto para los agentes comprender entornos del mundo real y de realidad virtual debido a las diferencias visuales y a las propiedades físicas independientes de los entornos. En el contexto de la realidad cruzada, la migración de la simulación a la realidad es una cuestión especialmente importante cuando se utilizan estrategias entrenadas en simulación para procesar datos del mundo real, como veremos en la siguiente sección.

7.4 Migración de la simulación a la realidad

Técnicas que permiten desplegar en el mundo real modelos entrenados en simulación. Los agentes incorporados, especialmente los basados en estrategias de aprendizaje por refuerzo (RL), suelen entrenarse en entornos simulados. Estas simulaciones no reproducen exactamente las características del mundo real (por ejemplo, interferencias, luz, gravedad y otras propiedades físicas). Debido a esta diferencia entre simulación y realidad, los modelos entrenados en simulación suelen tener dificultades para funcionar bien cuando se aplican al mundo real. Este problema se conoce como el de la "simulación a la realidad". Existen varios enfoques para resolver este problema:

aleatorización de dominiosLa aleatorización del dominio es una técnica para entrenar modelos variando aleatoriamente los parámetros (por ejemplo, la apariencia del objeto, el ruido del sensor y las propiedades ópticas) en entornos simulados para hacer frente a la incertidumbre y la variación del mundo real Tobin et al. (2017). Por ejemplo, al entrenar habilidades de agarre basadas en el aprendizaje por refuerzo (RL), introducir aleatoriedad en la forma de un objeto puede permitir que la estrategia se adapte a objetos con formas ligeramente diferentes Saito et al. (2022).
adaptación del dominioAdaptación de dominios: La adaptación de dominios o migración de dominios es una técnica que tiende un puente entre los dominios simulados y los del mundo real mediante el entrenamiento de un modelo utilizando un gran número de imágenes simuladas y un pequeño número de imágenes del mundo real. En configuraciones prácticas, se utilizan métodos de conversión de imagen a imagen no emparejadas, como CycleGAN Zhu et al. (2017b), debido a la dificultad de preparar imágenes emparejadas entre dominios. Existen varias versiones mejoradas del aprendizaje por refuerzo, como Reinforcement Learning -CycleGAN Rao et al. (2020), así como versiones mejoradas del aprendizaje por imitación, por ejemplo, RetinaGAN Ho et al. (2021).
Simulación mejoradaSimulación realista: la simulación realista es clave para la migración de la simulación a la realidad. Parte de este trabajo se consigue mediante técnicas de identificación de sistemas Zhu et al. (2017c); Allevato et al. (2020), con el objetivo de identificar los parámetros de simulación para imitar los entornos del mundo real. Además, el uso de simuladores fotorrealistas sería eficaz en el aprendizaje por refuerzo basado en imágenes Martínez-González et al. (2020); Müller et al. (2018); Shah et al. (2018); Sasabuchi et al. (2023).

A medida que los métodos siguen evolucionando, la migración de la simulación a la realidad sigue siendo un reto central en la investigación sobre agentes incorporados. La investigación teórica y empírica es esencial para seguir avanzando en estas técnicas.

8 Mejora continua y automática de la IA de los agentes

Actualmente, los agentes de IA basados en modelos base tienen la capacidad de aprender de muchas fuentes de datos diferentes, lo que proporciona una fuente de datos más flexible para el entrenamiento. Dos resultados clave de esto son que (1) los datos de interacción con usuarios y humanos pueden utilizarse para mejorar aún más el agente, y (2) los modelos base existentes y los artefactos de modelos pueden utilizarse para generar datos de entrenamiento. En las secciones siguientes se analiza cada uno de estos aspectos con más detalle, pero hay que señalar que, dado que los agentes de IA actuales se asocian principalmente a modelos de base preentrenados, no suelen aprender de las interacciones con el entorno. Creemos que esta es una dirección futura apasionante, y el trabajo preliminar de Bousmalis et al. sugiere que los agentes de auto-mejora para el control de robots son capaces de aprender y mejorar continuamente a través de interacciones con el entorno sin necesidad de supervisión Bousmalis et al. (2023).

8.1 Datos de interacción humana

La idea central del uso de datos de interacción basados en humanos es utilizar un gran número de interacciones agente-humano para entrenar y mejorar el agente para futuras iteraciones. Hay varias estrategias que pueden utilizarse para mejorar un agente mediante la interacción humano-humano.

Datos de formación adicionalesLa interacción persona-ordenador: Quizá la forma más sencilla de utilizar la interacción persona-ordenador sea utilizar los propios ejemplos de interacción como datos de entrenamiento para futuras iteraciones del agente. Esto suele requerir una estrategia de filtrado para distinguir los ejemplos de interacción con éxito de los que no lo son. El filtrado puede basarse en reglas (por ejemplo, para alcanzar un objetivo final deseado), en modelos (por ejemplo, para clasificar las interacciones exitosas frente a las fallidas) o seleccionarse manualmente tras una inspección y/o modificación post-hoc de los ejemplos de interacción.
Aprendizaje de las preferencias humanasModelo de salida: Durante la interacción con el usuario, el sistema de agente puede ofrecerle varias salidas de modelo diferentes y permitirle elegir la mejor salida. Esto se utiliza normalmente para modelos lingüísticos extensos (LLM) como ChatGPT y GPT-4, en los que el usuario puede seleccionar la salida (de entre varias) que mejor se ajuste a sus preferencias.
Formación en seguridad (simulacro de equipo rojo)Un ejercicio de equipo rojo en el contexto de la IA de Agente se refiere a tener un equipo adversario dedicado (ya sea humano o informático) que intenta explotar y exponer debilidades y vulnerabilidades en un sistema de IA de Agente. Aunque de naturaleza adversaria, los ejercicios de equipo rojo se utilizan a menudo como medio para comprender cómo mejorar las medidas de seguridad de la IA y reducir la aparición de resultados dañinos. El principio básico es descubrir formas coherentes de inducir resultados no deseados en los agentes, de modo que los modelos puedan entrenarse con datos que corrijan explícitamente este comportamiento.

8.2 Datos generados por el modelo de base

A medida que el mundo académico y la industria han ido generando sólidos artefactos de modelos base, se han desarrollado métodos para extraer y generar datos de entrenamiento significativos a partir de estos artefactos utilizando diversas técnicas de señalización y emparejamiento de datos.

Ajuste de instrucciones del modelo de lenguaje amplio (LLM)El método de generación de instrucciones a partir de grandes modelos lingüísticos (LLM) que siguen los datos de entrenamiento permite afinar modelos de código abierto más pequeños basándose en los resultados de grandes LLM patentados Wang et al. Por ejemplo, Alpaca Taori et al. (2023) y Vicuna Zheng et al. (2023) se basan en la familia de código abierto LLaMA de Touvron et al. (2023) Large Language Models (LLMs), que han sido ajustados basándose en una variedad de resultados de ChatGPT y participantes humanos. Este enfoque de ajuste de instrucciones puede verse como una forma de destilación de conocimientos, en la que los Grandes Modelos del Lenguaje (LLM) más grandes actúan como modelos maestros para los alumnos más pequeños. Es importante destacar que, aunque se ha demostrado que el ajuste de la instrucción de los modelos lingüísticos grandes (LLM) puede transferir el estilo de escritura y algunas habilidades de seguimiento de instrucciones del modelo del profesor al modelo del alumno, sigue existiendo una brecha significativa entre la autenticidad y la competencia del modelo del profesor y el modelo del alumno Gudibande et al. (2023).
Pares visuales-verbalesAlgunos trabajos recientes han intentado aumentar la cantidad y diversidad de datos de preentrenamiento disponibles para el modelado visual-lingüístico (VLM) mediante la generación automática de subtítulos y otros textos para el contenido visual. Por ejemplo, LLaVA Liu et al. (2023c) utilizaron 150.000 ejemplos de comportamientos de seguimiento de órdenes a partir de entradas textuales y visuales, que fueron generadas principalmente por el Large Language Model (LLM). Otros trabajos han demostrado que el reetiquetado de imágenes mediante modelos de lenguaje visual (VLM) puede mejorar la calidad de los datos de entrenamiento y los modelos de generación de imágenes posteriores Segalis et al. En el campo de la comprensión de vídeo, se ha demostrado que el reetiquetado de vídeos mediante modelos de lenguaje visual (VLM) y modelos de lenguaje de gran tamaño (LLM) mejora el rendimiento y la calidad de los modelos de lenguaje visual (VLM) posteriores entrenados con los vídeos reetiquetados Wang et al.

9 Conjuntos de datos de agentes y tablas de clasificación

Para acelerar la investigación en este campo, proponemos dos puntos de referencia para juegos multiagente y tareas de lenguaje visual basadas en agentes, respectivamente. Publicaremos dos nuevos conjuntos de datos - "CuisineWorld" y "VideoAnalytica"-, así como un conjunto de modelos de referencia. -Además de un conjunto de modelos de referencia, se anima a los participantes a explorar nuevos modelos y sistemas y a enviar sus resultados al conjunto de pruebas de nuestra tabla de clasificación.

9.1 El conjunto de datos "CuisineWorld" para juegos multiagente

¡CuisineWorld es un juego basado en texto similar a Overcooked! Proporciona una plataforma para que los agentes controlados por IA cooperen y jueguen juntos. Este conjunto de datos pondrá a prueba la eficacia colaborativa de los sistemas multiagente, proporcionando información sobre la capacidad de Large Language Model (LLM) y otros sistemas para trabajar juntos en escenarios dinámicos. En particular, el conjunto de datos se centrará en cómo los agentes comprenden los objetivos y cómo se coordinan entre sí. Este conjunto de datos admite dos modos: un modo centralizado con programador y un modo descentralizado. Los participantes pueden elegir un modo de juego y enviar sus resultados a nuestra tabla de clasificación.

9.1.1 Puntos de referencia

Para nuestro concurso, publicaremos un benchmark, el benchmark CuisineWorld, que incluye una interfaz textual que incluye un archivo de definición de tareas extensible y una interfaz para la interacción multiagente y la interacción persona-ordenador. Introducimos tareas de interacción de juegos cuyo objetivo es generar estrategias de colaboración multiagente relevantes y apropiadas que maximicen la eficiencia de la colaboración. Evaluamos la eficiencia de la colaboración utilizando la métrica de evaluación propuesta: CoS.

El conjunto de datos "CuisineWorld" fue recopilado por Microsoft, UCLA y la Universidad de Stanford. El objetivo del concurso es explorar cómo funcionan en este punto de referencia técnicas de interacción diferentes, existentes y novedosas, basadas en el Large Language Model (LLM) subyacente, y establecer una base sólida para las tareas de una infraestructura de juegos multiagente.

El conjunto de datos de CuisineWorld incluye:

Un conjunto bien definido de tareas de colaboración multiagente.
Un sistema API para facilitar las interacciones entre agentes.
Un sistema de evaluación automatizado.

(El enlace para descargar el conjunto de datos se facilitará en breve y este artículo se actualizará para incluirlo aquí).

9.1.2 Tareas

Ponemos a disposición de la comunidad investigadora un conjunto de datos y pruebas de referencia asociadas, denominado Microsoft MindAgent, y, en consecuencia, liberamos un conjunto de datos "CuisineWorld".
Proporcionaremos puntos de referencia para evaluar y clasificar los algoritmos "MindAgent" presentados. También proporcionaremos resultados de referencia generados con infraestructuras populares.

9.1.3 Indicadores y valoraciones

La calidad de la eficiencia de la colaboración multiagente se determina mediante la nueva métrica automatizada "cos" (de MindAgent Gong et al. (2023a)). La puntuación final de nuestra métrica se calcula como la media de las métricas de eficiencia de la colaboración evaluadas por el sistema multiagente en todas las tareas. Se pedirá a los evaluadores humanos que califiquen las respuestas individuales y proporcionen juicios subjetivos sobre el compromiso, la amplitud y la calidad general de las interacciones usuario-agente.

9.1.4 Evaluación

Evaluación automatizadaTenemos previsto empezar a publicar la tabla de clasificación en una fecha de lanzamiento (por determinar). Tenemos previsto empezar a publicar la Leaderboard en la fecha de lanzamiento (TBD), en la que se pedirá a los participantes registrados que envíen sus resultados sobre tareas relacionadas con el conjunto de datos "CuisineWorld" (el conjunto de datos que estamos publicando para la Leaderboard). La presentación de resultados se cerrará en la fecha de finalización (TBD). Se pedirá a cada equipo que envíe sus resultados generados en el conjunto de pruebas para evaluar automáticamente la métrica "cos".
Evaluación manual en nuestros gráficos. Los participantes en el Leaderboard tendrán que proporcionar un archivo de envío generado por un script de evaluación local. Utilizaremos el sistema evalAI para comprobar el archivo de envío y tendremos la opción de volver a ejecutar el código para los mejores contendientes del desafío. Por lo tanto, los equipos también deben enviar su código con un archivo de autodescripción sobre cómo ejecutaron su código. La evaluación manual correrá a cargo del equipo de organización.
Anuncio de los ganadores. Anunciaremos los ganadores y publicaremos las puntuaciones finales de las propuestas en nuestra tabla de clasificación.

9.2 Conjunto de datos de preaprendizaje de audio-vídeo-lenguaje.

VideoAnalytica se centra en el uso de presentaciones de vídeo como ayuda para comprender mejor el razonamiento complejo y de alto nivel que encierran los vídeos didácticos de larga duración. El objetivo es evaluar las capacidades de razonamiento cognitivo de los modelos de lenguaje de vídeo, llevándolos más allá de las meras tareas de reconocimiento y comprensión básica hacia una comprensión más compleja y matizada del vídeo. Fundamentalmente, VideoAnalytica hace hincapié en la integración de múltiples modalidades (por ejemplo, audio, vídeo y lenguaje) y en la capacidad de los modelos de aplicar conocimientos específicos del dominio para comprender la información presentada en el vídeo e interpretarla. En concreto, VideoAnalytica aborda dos tareas principales:

1.
Recuperación de textos de vídeo: Esta tarea consistía en recuperar con precisión el texto relevante de un vídeo instructivo. El reto consiste en diferenciar la información relevante de la irrelevante, lo que requiere un conocimiento profundo del contenido del vídeo y analizar la presentación para recuperar la consulta correcta. Para aumentar aún más la complejidad de estas tareas, introducimos en el conjunto de datos ejemplos negativos duros generados por el Large Language Model (LLM). Validamos manualmente los ejemplos negativos generados y eliminamos los casos que hacen que la tarea sea inválida e injusta (por ejemplo, los ejemplos negativos son válidos).
2.
Cuestionarios informativos asistidos por vídeo: Esta tarea requiere que el modelo responda a preguntas basadas en información extraída del vídeo. Se centra en preguntas complejas que requieren un razonamiento analítico y una comprensión profunda de la presentación del vídeo.

Para facilitar el desarrollo de un agente audio-vídeo-verbal que analice la comprensión de vídeos, hemos introducido una tabla de clasificación para dos tareas en VideoAnalytica.

Los participantes en la tabla de clasificación deberán presentar sus soluciones para que sean evaluadas. La evaluación se basará en el rendimiento del modelo en dos tareas y los resultados se mostrarán en la tabla de clasificación. Los participantes deberán presentar su código, así como una explicación detallada de su planteamiento y metodología.
Consideraciones éticas: La clasificación se centra en la comprensión e interpretación del contenido de vídeo, que puede utilizarse en aplicaciones de vigilancia u otras aplicaciones invasivas de la intimidad. Por lo tanto, es fundamental tener en cuenta las implicaciones éticas y el posible uso indebido de la tecnología. Animamos a los participantes a tener en cuenta estos aspectos en sus propuestas y a promover el uso ético de la IA.

10 Declaración de impacto más amplia

Este documento y nuestro foro asociado ^6^^6^https://multimodalagentai.github.io pretenden ser un catalizador de la investigación innovadora, fomentar la colaboración e impulsar la próxima ola de adopción de la IA. Al centrarnos en las inteligencias multimodales, hacemos hincapié en la futura dirección de la interacción persona-ordenador, las tablas de clasificación y las soluciones. Detallamos tres áreas en las que estamos haciendo una contribución significativa a la comunidad en general.

Ante todo, esperamos que nuestro foro lleve a los investigadores de IA a desarrollar soluciones impulsadas por problemas del mundo real como los juegos, la robótica, la asistencia sanitaria y la comprensión de vídeos de larga duración. En concreto, el desarrollo de inteligencias multimodales en los juegos podría transformar la industria del videojuego al dar lugar a experiencias de juego más inmersivas y personalizadas. En robótica, el desarrollo de sistemas robóticos adaptables podría revolucionar industrias como la manufacturera o la agrícola, con la posibilidad de resolver la escasez de mano de obra y aumentar la eficiencia. En la sanidad, el uso de modelos lingüísticos amplios (LLM) y modelos lingüísticos visuales (VLM) como inteligencias de diagnóstico o asistentes de atención al paciente podría dar lugar a diagnósticos más precisos, mejorar la atención al paciente y aumentar el acceso a los servicios sanitarios, especialmente en zonas desatendidas. Además, la capacidad de estos modelos para interpretar vídeos largos puede tener una amplia gama de aplicaciones, desde la mejora del aprendizaje en línea hasta la mejora de los servicios de asistencia técnica. En general, los temas tratados en nuestros foros tendrán importantes repercusiones en industrias y seres humanos de todo el mundo.

En segundo lugar, esperamos que nuestro foro sea un recurso valioso para los profesionales e investigadores de la IA, sirviendo de plataforma para explorar y profundizar en el conocimiento de los diversos y complejos tableros de mando que presenta la implementación de inteligencias de IA en diversos entornos y contextos. Dicha exploración incluye, por ejemplo, la comprensión de las limitaciones específicas y los peligros potenciales de los sistemas de IA Agentic desarrollados para dominios específicos como el diagnóstico sanitario. En este ámbito, cuestiones como las alucinaciones peligrosas en el comportamiento de la IA pueden plantear riesgos significativos, lo que pone de relieve la importancia crítica de un diseño y unas pruebas cuidadosos. Sin embargo, cuando se consideran inteligencias de IA hechas para la industria del juego, estas clasificaciones específicas pueden ser menos relevantes u obvias. En estos ámbitos del entretenimiento, los desarrolladores pueden dar prioridad a obstáculos diferentes, como la necesidad de que la IA realice una generación más abierta y muestre creatividad, adaptándose dinámicamente a escenarios de juego impredecibles y a las interacciones de los jugadores. Asistiendo al foro, los participantes comprenderán cómo estos diferentes entornos dictan el enfoque y la dirección del desarrollo de la IA, y cómo adaptar mejor las soluciones de IA para satisfacer estas diferentes necesidades y superar las tablas de clasificación relevantes.

En tercer lugar, los diversos elementos de nuestro evento, incluidas las presentaciones de expertos, los carteles informativos y los ganadores de nuestras dos tablas de clasificación, están diseñados para ofrecer una visión general sustantiva pero concisa de las últimas e importantes tendencias, direcciones de investigación y conceptos innovadores en el campo de las inteligencias multimodales. Estas presentaciones resumirán los principales hallazgos y avances, revelando nuevos sistemas, ideas y tecnologías en el campo de la IA para las inteligencias multimodales. Esta recopilación de conocimientos no sólo será beneficiosa para los asistentes a nuestro Foro que deseen profundizar sus conocimientos y experiencia en este campo, sino que también servirá como un dinámico y rico repositorio de recursos. Los visitantes de nuestro sitio web del Foro podrán utilizar este repositorio de información para descubrir y comprender los avances de vanguardia y las ideas innovadoras que impulsarán el futuro de la IA para las inteligencias multimodales. Nos esforzamos por ser una base de conocimientos útil tanto para los novatos como para los veteranos en este campo. Al utilizar estos recursos, esperamos que tanto los participantes como los visitantes en línea conozcan los cambios transformadores y los enfoques novedosos que están configurando el apasionante panorama de la IA para las inteligencias multimodales.

11 Consideraciones éticas

Los sistemas de IA multimodal tienen muchas aplicaciones. Además de la IA interactiva, los modelos multimodales fundamentales pueden ayudar a impulsar la generación de contenidos para robots e inteligencias de IA, y asistir en aplicaciones de productividad que ayudan con la repetición, la paráfrasis, la predicción del movimiento o la composición de escenas 3D o 2D. Los avances fundamentales en IA corporal inteligente ayudan a alcanzar estos objetivos, y muchos se beneficiarán de una mejor comprensión de cómo modelar el cuerpo y la empatía en la realidad simulada o en el mundo real. Es probable que muchas de estas aplicaciones tengan beneficios positivos.

Sin embargo, esta tecnología también puede ser explotada por malos actores. Los sistemas inteligentes de IA que generan contenidos pueden utilizarse para manipular o engañar a las personas. Por lo tanto, es importante que esta tecnología se desarrolle siguiendo directrices de IA responsable. Por ejemplo, informando claramente a los usuarios de que los contenidos son generados por sistemas de IA y proporcionándoles control para personalizar dichos sistemas. La IA corporal inteligente tiene el potencial de utilizarse para desarrollar nuevas formas de detectar contenidos manipuladores -en parte porque tiene las ricas propiedades alucinatorias de un gran modelo base-, ayudando así a resolver un problema alternativo del mundo real.

Por ejemplo, 1) es fundamental que las inteligencias Large Language Modelling (LLM) y Visual Language Modelling (VLM) se desplieguen éticamente en temas de salud, especialmente en áreas sensibles como la asistencia sanitaria. Las inteligencias de IA entrenadas con datos sesgados pueden agravar las disparidades sanitarias al proporcionar diagnósticos inexactos a poblaciones vulnerables. Además, el tratamiento de datos sensibles de los pacientes por parte de las inteligencias artificiales plantea serios problemas de privacidad y confidencialidad.2) En el sector de los videojuegos, las inteligencias artificiales pueden cambiar el papel de los desarrolladores, al pasar de centrarse en la creación de guiones para personajes no jugadores a mejorar el proceso de aprendizaje de las inteligencias. Del mismo modo, los sistemas robóticos adaptativos pueden redefinir el papel de la industria manufacturera, exigiendo nuevos conjuntos de habilidades en lugar de sustituir a los trabajadores humanos. Para minimizar las posibles perturbaciones socioeconómicas, es esencial dar una respuesta responsable a estos cambios.

Además, la IA de cuerpos inteligentes se centra en el aprendizaje de estrategias de colaboración en simulación, lo que resulta arriesgado si las estrategias se aplican directamente al mundo real debido al sesgo distributivo. Para minimizar el riesgo de comportamientos impredecibles en escenarios del mundo real, deben establecerse mecanismos robustos de comprobación y supervisión continua de la seguridad. Nuestro conjunto de datos "VideoAnalytica" se recogió de Internet y, dado que no es una fuente totalmente representativa, hemos completado revisiones éticas y procedimientos legales de Microsoft y la Universidad de Washington. Aun así, debemos ser conscientes de los posibles sesgos del corpus. Las distribuciones de datos pueden caracterizarse de varias maneras. En este taller, hemos captado las diferencias entre la distribución del nivel de inteligencia en nuestro conjunto de datos y otros conjuntos de datos existentes. Sin embargo, hay mucho más que se puede incluir en un conjunto de datos o en un taller. Creemos que hacen falta más métodos o debates que sean relevantes para la tarea o el tema real, y poniendo a disposición estos datos o sistemas.

Dedicaremos una parte de nuestro proyecto a debatir estas cuestiones éticas, explorar posibles estrategias de mitigación y desplegar inteligencias de IA multimodales responsables. Con este artículo, esperamos ayudar a más investigadores a trabajar juntos para responder a estas preguntas.

12 Declaración sobre la diversidad

Al investigar la adaptabilidad de los modelos corporales inteligentes de IA en diversos dominios, abarcamos de forma natural una amplia variedad de clasificaciones, perspectivas y soluciones. Con este espíritu, nuestro proyecto pretende construir una comunidad diversa explorando una variedad de temas en IA multimodal y corporal inteligente.

Con estos principios en mente, este proyecto se centra en los sistemas multimodales avanzados que interactúan eficazmente en entornos físicos y virtuales y facilitan la interacción efectiva con los seres humanos. Como tal, pretendemos atraer a expertos y profesionales de una amplia gama de especialidades técnicas, culturas, países y campos académicos para debatir temas importantes, entre otros:

Aplicación del modelo de base: desarrollo de inteligencias con modalidades integradas (audio, imagen, texto, entradas de sensores) destinadas a mejorar su reconocimiento y respuesta a diversas aplicaciones.
Sistemas genéricos de extremo a extremo: desarrollar modelos de extremo a extremo entrenados utilizando datos a gran escala con el objetivo de crear soluciones de IA genéricas y adaptables.
Principio de conexión modal: integrar la información procedente de varias modalidades para aumentar la coherencia y eficacia del tratamiento de datos.
Interfaces intuitivas persona-ordenador: desarrollo de interacciones eficaces y significativas entre personas e inteligencias.
Domesticación de grandes modelos lingüísticos (LLM)/modelos lingüísticos visuales (VLM): exploración de nuevas formas de abordar problemas habituales en los modelos a gran escala, como las ilusiones y los sesgos en los resultados.

Aspiramos a ampliar nuestra comprensión colectiva del potencial y las limitaciones de la IA para las inteligencias aprovechando nuestras perspectivas únicas y diversas. Creemos firmemente que este enfoque no solo enriquecerá las perspectivas individuales, sino que también mejorará el conocimiento colectivo de la comunidad y fomentará una visión global más inclusiva del tablero de mando más amplio al que se enfrentan las inteligencias multimodales de IA.

Apéndice AGPT-4V Detalles del consejo del agente

A menos que se indique lo contrario, utilizamos las instrucciones predeterminadas del sistema de GPT-4V. Mostramos en detalle el proceso de pedir a GPT-4V un juego de Minecraft, y cómo generamos las respuestas de GPT-4V en la Figura 31.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 31: Proporcionamos fragmentos de código para mostrar el proceso completo de llamada a GPT-4V para vídeos de Minecraft. En primer lugar, codificamos los fotogramas del vídeo y, a continuación, llamamos al endpoint GPT-4V. La respuesta del modelo se muestra en la parte inferior de la pantalla.

Apéndice BGPT-4V para Bleeding Edge

Bleeding Edge es un juego de combate por equipos en tercera persona en el que los jugadores intentan capturar puntos objetivo o recoger más recursos que el equipo enemigo. En la figura 32 se muestran ejemplos de entradas y salidas cuando GPT-4V se prepara para jugar a Bleeding Edge. En comparación con Minecraft, hemos observado cualitativamente que GPT-4V tiene un conocimiento menos profundo del contenido visual y de las reglas del juego. Esto puede deberse a (1) la gran cantidad de datos de Minecraft en los datos de entrenamiento de GPT-4V, y (2) la mayor complejidad visual de Bleeding Edge en comparación con Minecraft.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 32: GPT-4V es capaz de generar contenidos significativos para juegos como Bleeding Edge, que tienen una perspectiva en tercera persona y escenas visualmente complejas. Para introducir un gran número de fotogramas (48) en GPT-4V, los introdujimos en forma de cuadrícula y superpusimos números de fotograma en cada uno de ellos (como se muestra arriba).

Apéndice CGPT-4V para Microsoft Flight Simulator

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 33: GPT-4V puede generar descripciones de contenido significativas para los juegos de Microsoft Flight Simulator. Mientras el jugador del simulador de vuelo pilota la aeronave, el agente GPT-4V puede proporcionar una descripción de alto nivel de la acción, mostrándola a través de la vista de la cabina y la vista externa de la aeronave, manejando los distintos controles e instrumentos de vuelo para mantener la velocidad y altitud adecuadas mientras se navega por el espacio aéreo virtual. Para introducir un vídeo de gran tamaño, seleccionamos un número de fotogramas clave (6 fotogramas) para enviar a GPT-4V. Introducimos cada fotograma clave individualmente, sin utilizar una cuadrícula (como se muestra en la figura anterior).

Como se muestra en la Figura 33, el agente basado en GPT-4V proporciona una descripción de alto nivel de las acciones del jugador en Microsoft Flight Simulator. Describe cómo el jugador, a través de la vista de la cabina y la vista externa de la aeronave, está pilotando la aeronave, manejando los diversos controles e instrumentos de vuelo para mantener la velocidad aerodinámica y la altitud adecuadas, mientras navega por el espacio aéreo virtual.

Apéndice DGPT-4V para Assassin's Creed: Odyssey

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 34: GPT-4V es capaz de generar descripciones de contenido significativas para el juego Assassin's Creed: Odyssey. Los agentes basados en GPT-4V también pueden proporcionar descripciones de acción de alto nivel, por ejemplo, "los personajes de la imagen participan en batallas nocturnas en campañas históricas, blandiendo lanzas y utilizando habilidades especiales como la "acometida del toro", luchando contra múltiples enemigos con indicadores de nivel, mientras gestionan sus valores de vida y habilidad en un juego de rol de acción en tercera persona...". Gestionar sus valores de vida y habilidad en un juego de rol de acción en tercera persona". Para introducir un vídeo de gran tamaño, seleccionamos un número de fotogramas clave (8 fotogramas) para enviarlos a GPT-4V. Introducimos cada fotograma clave individualmente, sin utilizar una cuadrícula (como se muestra arriba).

Como se muestra en la Figura 34, el agente GPT-4V proporciona una descripción de acción de alto nivel del personaje de la imagen, es decir, el personaje está participando en batallas nocturnas en una campaña histórica, blandiendo una lanza y utilizando habilidades especiales como la "acometida del toro", luchando contra múltiples enemigos con indicadores de nivel, y gestionando sus valores de vida y habilidad en un juego de rol de acción en tercera persona. GPT-4V también muestra al jugador participando en un combate cuerpo a cuerpo a gran escala, controlando a un personaje con detalles rojos en su armadura y al que se le pide que utilice la habilidad "bull rush" siguiendo instrucciones en pantalla. El entorno es oscuro y está lleno de llamas, lo que sugiere un campo de batalla, y el personaje del jugador se enfrenta a múltiples enemigos con indicadores de nivel y barras de sangre en la parte superior. La acción forma parte de un tutorial o secuencia de combate en la que el jugador aprende y ejecuta habilidades de combate.

Apéndice EGPT-4V para Gears of War 4

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 35: GPT-4V es capaz de generar descripciones de contenido significativas para el juego Gears of War 4. El agente GPT-4V proporciona una descripción de alto nivel de la acción, es decir, el jugador está participando en un escenario de combate en un entorno futurista visualmente rico que recuerda a un complejo industrial o militar. El personaje, vestido con armadura y equipado con armas de fuego, se desplaza por la zona y utiliza sistemas de cobertura y puntería para enfrentarse al enemigo. Las acciones capturadas incluyen que el personaje del jugador apunte desde detrás de una cobertura, dispare a los enemigos, reciba daños (indicados por señales visuales en pantalla) y participe en combates cuerpo a cuerpo. El entorno está marcado por la iluminación nocturna, con fuentes de luz artificial que resaltan las zonas o acciones de interés. En determinados momentos, el personaje del jugador aparece como una silueta transparente, que puede indicar una habilidad especial o un estado temporal, como la invencibilidad o el sigilo. Para introducir un vídeo de gran tamaño, seleccionamos un número de fotogramas clave (10 fotogramas) para enviar a GPT-4V. Introducimos cada fotograma clave individualmente, sin utilizar una cuadrícula (como se muestra arriba).

Como se muestra en la FIG. 35, basado en la secuencia de video de 10 cuadros, el agente GPT-4V puede proveer una descripción general de los movimientos del jugador en el videojuego:

"El jugador conduce al personaje por un entorno industrial nocturno, escondiéndose estratégicamente tras diversos objetos, como cajas y paredes. El personaje va armado y se enfrenta a entidades enemigas. El jugador utiliza armas de fuego y también puede utilizar ataques cuerpo a cuerpo, como se muestra en Close Quarters Combat. El personaje parece estar gestionando su munición y sus valores de vida, como indican las señales visuales en la pantalla (como un indicador rojo parpadeante, que suele indicar que el personaje está recibiendo daño).

Además, el jugador parece moverse tácticamente, cambiando entre distintas posiciones de cobertura para avanzar o defenderse de los enemigos. En algún momento, los escudos parecen activarse, lo que sugiere que el jugador está respondiendo a los disparos entrantes utilizando sus capacidades defensivas. Los personajes también parecen recargar sus armas, lo que sugiere un elemento de gestión de recursos durante el combate. La sangre y los efectos de impacto indican que se ha acertado a los enemigos.

El personaje del jugador coopera con aliados, ya que pueden verse otros personajes en las proximidades que participan en acciones de combate similares. Hay elementos interactivos en el entorno, como barriles explosivos, que el jugador puede utilizar en su beneficio.

Los escenarios muestran una acción trepidante centrada en el movimiento estratégico, el disparo y el conocimiento de la situación para superar a los oponentes y alcanzar objetivos específicos en el juego."

Apéndice FGPT-4V para El cielo estrellado

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
Figura 36: Capacidad de GPT-4V para generar descripciones de contenido significativas para el juego Stars Hollow de la consola X-Box. El agente GPT-4V proporciona descripciones de alto nivel de la acción en este juego de exploración espacial. Para introducir un vídeo de gran tamaño, seleccionamos un número de fotogramas clave (10 fotogramas) para enviar a GPT-4V. introducimos cada fotograma clave individualmente, sin utilizar una malla (como se muestra arriba).

Como se muestra en la Figura 36, basándose en la secuencia de vídeo de 10 fotogramas proporcionada para Stars, el agente GPT-4V proporciona una representación general de las acciones del jugador en el videojuego. Según GPT-4V, "La imagen representa una secuencia de eventos en el juego Stars, mostrando las interacciones del jugador en el entorno minero. A continuación se describe la secuencia:

El jugador se encuentra en una caverna subterránea poco iluminada con estalactitas junto a otro personaje con un equipo similar al del espacio. Se enfrentan a un punto de ruta resaltado que indica un objetivo o un lugar de interés.
El jugador camina por el interior de una industria, posiblemente una estación minera, y se acerca a otro personaje. El Heads-Up Display (HUD) muestra una línea de diálogo para el "Supervisor Lin", que indica una interacción NPC (personaje no jugador) y posiblemente un briefing o actualización de la misión.
El jugador parece seguir al PNJ Supervisor Lin a través de las cuevas, lo que alude a la parte guiada del juego, en la que los PNJ dirigen al jugador a lugares o misiones específicos.
El diálogo a cargo del bosque insinúa un punto de decisión o actualización de la misión que puede guiar a los jugadores a través de nuevos objetivos relacionados con el recurso "gran veta".
El jugador vuelve a encontrarse con el Supervisor Lin, que le da instrucciones o información sobre los yacimientos de metal, insinuando el inicio de una misión minera o la exploración de una nueva zona.
En este fotograma, el jugador parece estar observando o interactuando con una máquina, y otro personaje, Isabel, indica acciones o diálogos relacionados con el funcionamiento del aparato o el trabajo técnico.
El jugador mira hacia abajo y ve un terreno accidentado y dos objetos brillantes, que pueden representar recursos que hay que recoger o puntos de interés para la misión.
El jugador examina un recurso específico, etiquetado como "Depósito de berilio" en la pantalla de visualización, lo que indica que se está llevando a cabo una recolección de recursos o una actividad minera.
El jugador camina por la cueva, posiblemente en busca de otros recursos o navegando hacia el siguiente objetivo, tal y como ha mostrado antes otro personaje con equipo espacial.
El jugador se encuentra en una zona más oscura de la cueva con dos marcadores luminosos que indican el camino o el punto objetivo que debe alcanzar.

A lo largo de las imágenes, el jugador parece participar en una misión que implica exploración, interacción con los PNJ, obtención de recursos y, posiblemente, manejo de maquinaria en un entorno minero. Los elementos de la pantalla emergente, como los puntos de ruta, el texto de los diálogos y las actualizaciones de la misión, proporcionan contexto para las acciones del jugador y sus objetivos de juego".

Perfil del autor

Zane Durante

Doctorando en Informática por la Universidad de Stanford
Correo electrónico: durante@stanford.edu
Página web: https://zanedurante.github.io/
Zane Durante es estudiante de doctorado en el Stanford Vision Lab, supervisado por la Dra. Fei-Fei Li. Sus intereses de investigación incluyen la comprensión de vídeos, la vinculación de la visión por ordenador con el lenguaje natural y las aplicaciones de la inteligencia artificial en la atención hospitalaria. Dirige una colaboración en curso entre la Facultad de Medicina de Stanford y el Laboratorio de Visión de Stanford para desarrollar un conjunto de datos de descripciones en lenguaje natural de videoclips de escenas hospitalarias. Su trabajo de doctorado está financiado por una beca de investigación de posgrado de la National Science Foundation.

Qiuyuan Huang

Investigador principal en Microsoft Research, Redmond, WA, EE.UU.
Correo electrónico: qihua@microsoft.com
Página web: https://www.microsoft.com/en-us/research/people/qihua/
Qiuyuan Huang es investigadora principal del grupo de aprendizaje profundo de Microsoft Research (MSR) en Redmond, Washington. Sus intereses de investigación actuales se centran en el aprendizaje profundo, la multimodalidad y el procesamiento del lenguaje natural, especialmente la IA de agentes para juegos, robótica y atención sanitaria; la inteligencia de razonamiento basada en el conocimiento para la IA interactiva; la computación simbólica neuronal para la inferencia; y los modelos de base a gran escala para la PNL y la multimodalidad.

Naoki Wake

Un investigador de Microsoft en Redmond, Wash.
Correo electrónico: naoki.wake@microsoft.com
Página web: https://www.microsoft.com/en-us/research/people/nawake/
Naoki Wake es investigador del Applied Robotics Research Group de Microsoft. Sus investigaciones actuales se centran en el desarrollo de sistemas de percepción multimodal y sistemas colaborativos de gestos del habla para robots. Sus investigaciones anteriores abarcan la neurociencia auditiva, la neurorrehabilitación y el procesamiento del habla.Naoki se licenció en Ingeniería por la Universidad de Tokio en 2014 y se doctoró en Ciencia y Tecnología de la Información en 2019.

Ran Gong

Estudiante de doctorado en Informática en la UCLA.
Correo electrónico: nikepupu@ucla.edu
Página web: https://nikepupu.github.io
Ran Gong es estudiante de doctorado en el laboratorio VCLA de la UCLA. Su área de investigación se encuentra en la intersección de la robótica, la visión por ordenador, los gráficos por ordenador y el aprendizaje automático. Su investigación se centra en la simulación y la interacción corporales con el objetivo de crear comportamientos inteligentes que puedan resolver diferentes tareas en distintos entornos y tengan la capacidad de colaborar con los humanos. Es licenciado en Ciencias e Ingeniería Informáticas por la UCLA.

Jae Sung Park

Doctorando, Universidad de Washington
Correo electrónico: jspark96@cs.washington.edu
Página web: https://homes.cs.washington.edu/~jspark96/
Jae Sung es estudiante de doctorado supervisado por Yejin Choi y Ali Farhadi. Su investigación se centra en el desarrollo de modelos con razonamiento de sentido común multimodal. Le interesa dotar a los modelos de fundamentos que sitúen los conceptos lingüísticos en la modalidad visual y les permitan comprender contenidos multimedia del mismo modo que los humanos procesan la información visual.Jae Sung se licenció en Informática por la Universidad de California, Berkeley.

Bidipta Sarkar

Estudiante de la Universidad de Stanford
Correo electrónico: bidiptas@stanford.edu
Página web: https://bsarkar321.github.io/
Bidipta Sarkar es estudiante de último curso en la Universidad de Stanford y miembro del Stanford ILIAD Lab. Su investigación se centra en la creación de agentes artificialmente inteligentes que puedan interactuar con su entorno y trabajar de forma segura en concierto con humanos y otros agentes autónomos.

Rohan Taori

Doctorando en Informática por la Universidad de Stanford
Correo electrónico: rtaori@cs.stanford.edu
Página web: https://www.rohantaori.com/
Rohan Taori es estudiante de doctorado en el Laboratorio de Inteligencia Artificial de la Universidad de Stanford. Su investigación se centra en los fundamentos del aprendizaje automático en el contexto de los sistemas del mundo real. Recientemente, Rohan ha ampliado las fronteras de los grandes modelos lingüísticos de código abierto, perfeccionándolos para que sean útiles asistentes de uso general. Rohan también está interesado en aumentar los grandes modelos lingüísticos con capacidades multimodales, permitiéndoles razonar sobre imágenes y vídeos.Rohan se licenció en Informática por la Universidad de California, Berkeley.

Yusuke Noda

Ingeniero principal de software, Microsoft Gaming, Redmond, WA.
Correo electrónico: yusuke.noda@microsoft.com
Página web: https://www.linkedin.com/in/yusuke-noda-908797/
Yusuke Noda es ingeniero de software principal de la plataforma de juegos de Microsoft. Dirigió el desarrollo de la infraestructura de juegos para Xbox One y Xbox Cloud Gaming y cuenta con más de 16 años de experiencia en el desarrollo de infraestructuras eficientes para tecnologías en la nube y de juegos.

Demetri Terzopoulos

Profesor distinguido de la UCLA, informático ganador de un Oscar y empresario.
Correo electrónico: dt@cs.ucla.edu
Página web: https://web.cs.ucla.edu/~dt/
El Dr. Demetri Terzopoulos es Catedrático Distinguido y Catedrático del Rector de Informática de la UCLA, donde dirige el Laboratorio de Informática Gráfica y Visión de la UCLA. También es cofundador y científico jefe de VoxelCloud, Inc., una empresa multinacional de inteligencia artificial para el sector sanitario. Es o ha sido Guggenheim Fellow, miembro de la Royal Society of London (FRS) y de la Royal Society of Canada (FRSC), miembro de la Association for Computing Machinery (ACM), miembro vitalicio del Institute of Electrical and Electronics Engineers (IEEE), miembro de la Asia Pacific Association for Artificial Intelligence (AAIA), miembro distinguido del International Institute of Engineering and Technology (IETI), miembro de la European Academy of Sciences (EAS) y de la New York Academy of Sciences (NYAS). Academia Europea de Ciencias (EAS) y de la Academia de Ciencias de Nueva York (NYAS), y miembro vitalicio de Sigma Xi.

Yejin Choi

Cátedra Wisnner-Slivaka y Profesor Brett Helsel en la Universidad de Washington, Director de Investigación y Becario MacArthur en el Instituto Allen de Inteligencia Artificial.
Correo electrónico: yejin@cs.washington.edu
Página web: https://homes.cs.washington.edu/~yejin/
Yejin es titular de la cátedra Wisnner-Slivaka y profesor Brett Helsel en la Universidad de Washington y director de investigación sénior en el Instituto Allen de Inteligencia Artificial. Recibió el Anita Borg Early Career Award en 2018. Ha recibido una beca de la Fundación MacArthur Fellows para 2020. Ha recibido los premios Distinguished Paper Awards de AAAI 2020, Neurips 2021, ICML 2022 y ACL 2023, y los premios Best Paper Awards de NAACL 2022 y ACL 2023. Es una de las principales organizadoras de COLM 2024, un evento académico centrado en la investigación de la modelización del lenguaje. Sus principales intereses de investigación se centran en el procesamiento del lenguaje natural, el aprendizaje automático y el razonamiento basado en el sentido común en inteligencia artificial, así como en la visión por ordenador y las humanidades digitales.

Fei-Fei Li

Catedrático de Informática, Universidad de Stanford
Correo electrónico: feifeili@stanford.edu
Página web: https://profiles.stanford.edu/fei-fei-li/
Fei-Fei es la catedrática inaugural de Sequoia en el Departamento de Informática de la Universidad de Stanford y codirectora del Instituto de Inteligencia Artificial Centrada en el Ser Humano de Stanford. Fue directora del Laboratorio de Inteligencia Artificial de Stanford de 2013 a 2018. Durante su año sabático en Stanford, de enero de 2017 a septiembre de 2018, la Dra. Lee trabajó como Vicepresidenta en Google y como Científica Jefe de Inteligencia Artificial/Aprendizaje de Máquinas en Google Cloud. Desde entonces, ha sido miembro del consejo de administración o asesora de varias empresas públicas o privadas.

Katsushi Ikeuchi

Director principal de investigación en Microsoft y miembro vitalicio del IEEE. Microsoft Research, Redmond, Washington, EE.UU. Miembro vitalicio del IEEE.
Correo electrónico: katsuike@microsoft.com
Página web: https://www.microsoft.com/en-us/research/people/katsuike/
El Dr. Katsushi Ikeuchi se licenció en Ingeniería Mecánica por la Universidad de Kioto en 1973 y se doctoró en Ingeniería Informática por la Universidad de Tokio en 1978. Tras tres años en el Laboratorio de Inteligencia Artificial del MIT, cinco años en el Laboratorio de Tecnología Electrónica del Ministerio de Comercio Internacional e Industria del Gobierno japonés, 10 años en el Instituto de Robótica de la Universidad Carnegie Mellon y 19 años en el Instituto de Ciencias Industriales de la Universidad de Tokio, se incorporó a Microsoft como investigador principal en 2015. Durante su estancia en CMU y la Universidad de Tokio, supervisó a más de 50 estudiantes de doctorado.

Sus intereses de investigación abarcan la visión por ordenador, la robótica y los gráficos por ordenador. Ha recibido varios premios al mejor artículo en estas áreas de investigación, entre ellos el David Marr Award in Computational Vision y el IEEE Robotics and Automation Society K. S. Fu Memorial Best Paper Award.

Sus servicios a la comunidad incluyen: Presidente General de IROS95, ITSC99, IV01, ICCV05, ACCV07, ICCV17; Presidente de Programa de CVPR96, ICCV03, ICRA09, ICPR12, ICCV15; EIC de IJCV (2000-2017), EIC de IJ ITS (2012-2014), Editor Asociado de IEEE Trans. EIC de IJCV (2000-2017), EIC de IJ ITS (2012-2014), editor asociado de IEEE Trans. RA, IEEE Trans. PAMI; y conferenciante distinguido de la IEEE Signal Processing Society 2000-2002, la IEEE Robotics and Automation Society 2004-2006 y la IEEE Computer Society 2008-2010.

Gracias a sus investigaciones y servicios a la comunidad, ha recibido becas (vitalicias) del IEEE, IEICE, IPSJ y RSJ. Ha recibido el Premio al Investigador Distinguido del IEEE-PAMI, la Medalla con Cinta Púrpura del Emperador de Japón, el Premio Okawa de la Fundación Okawa y varios galardones por logros en investigación de asociaciones profesionales japonesas.

Hoi Vo

Becario tecnológico. Microsoft Games and X-Box Emerging Technologies, Redmond, WA, EE.UU.
Correo electrónico: hoiv@microsoft.com
Página web: https://www.linkedin.com/in/hoi-vo-193420/
Hoi Vo es investigador técnico en la división de juegos de Microsoft y se centra en la integración de AGI con nuevas IP de juegos. Desempeñó un papel clave en la creación del servicio Xbox Cloud Gaming y dirigió los esfuerzos de la nube y los juegos en todos los equipos de Microsoft, incluida la plataforma Windows Azure de Microsoft. Su trabajo se centra en la optimización de los modelos de IA para que funcionen de forma eficiente en la periferia, al tiempo que aprovecha la nube para manejar escenarios que superan las capacidades del hardware, incluido el ajuste de los modelos para hacerlos más atractivos para una variedad de experiencias de juego.

Jianfeng Gao

Científico distinguido y Vicepresidente de Microsoft y miembro del IEEE. Microsoft Research, Redmond, WA, EE.UU. Miembro del IEEE.
Correo electrónico: jfgao@microsoft.com
Página web: https://www.microsoft.com/en-us/research/people/jfgao/
El Dr. Jianfeng Gao es científico distinguido y vicepresidente de Microsoft Research, miembro del IEEE, miembro distinguido de la ACM y actual director del Deep Learning Group de Microsoft Research.De 2014 a 2017, ocupó el cargo de Business AI Partner Research Manager. Dirigió el desarrollo de soluciones de IA predictiva de ventas y marketing. También ha trabajado en el aprendizaje profundo para el procesamiento de texto e imágenes (véanse los tutoriales ACL/SIGIR 2018, los tutoriales Deep Learning 2017 y los tutoriales IJCAI 2016, o el sitio de intranet de Microsoft), y dirigió el desarrollo de sistemas de IA para el diálogo, la comprensión de lectura automática (MRC) y la respuesta a preguntas (QA). Desde 2022, ha dirigido la investigación sobre IA de auto-mejora que mejora y adapta LLM (por ejemplo, ChatGPT/GPT4) para desarrollar sistemas comerciales de IA.

una nota de agradecimiento

Estamos especialmente agradecidos a Peter Lee, Doug Burger, Desney Tan, Johannes Gehrke, Ryen White, Ece Kamar, Subhojit Som y Kareem Choudhry por sus consejos, su firme apoyo y sus ánimos. Damos las gracias a Haiyan Zhang, Spencer Perreault, Dave Bignell, Katja Hofmann, Sam Devlin, Shanzheng Tan, Raluca Georgescu, Bill Dolan, Nebojsa Jojic, Sudha Rao, Adrian Brown y Andrzej Banburski-Fahey por sus interesantes conversaciones iniciales y su ayuda en el juego. Damos las gracias a Kiran Muthabatulla, Antonio Criminisi, Tom Cashman, Nguyen Bach, Jennifer Marsman y Jaron Lanier, del equipo Microsoft Mesh, Microsoft OCTO y Microsoft Office, por sus contribuciones al trabajo sobre la Realidad Mixta, el conjunto de datos y su generosa ayuda y aportaciones a este proyecto. y su generosa ayuda y aportaciones al proyecto. Agradecemos especialmente a Paul Bennett, Corby Rosset, Michel Galley, Chenglong Wang, Baolin Peng, Hao Chen, Silviu Cucerzan, Ahmed Awadallah y Saleema Amershi sus sugerencias y comentarios sobre la sección de PNL. comentarios sobre la sección de PNL. Los autores agradecen sinceramente a Paul Smolensky, Yonatan Bisk, Kezhen Chen, Borui Wang, Liangke Gui, Dingmin Wang, Xin (Eric) Wang, Zhe Gan, Xiaojian Ma, Zilong Zheng, Song-chun Zhu, Dragomir R. Wang y D. S. Wang sus sugerencias y comentarios sobre la sección de PNL. Zhu, Dragomir R. Radev, Daniel McDuff, Harry Shum, por trabajos anteriores relacionados, comentarios, sugerencias, minuciosas revisiones múltiples de este trabajo y su incitación a la bibliografía. Por último, agradecemos sinceramente al equipo de Microsoft Holulens, al equipo de Microsoft X-box y al equipo de Meta Quest por proporcionar generosamente los dispositivos; al equipo de MSR Central Engineering (CE), al equipo de Microsoft 343 por la recopilación y el intercambio de datos; y a los equipos de Microsoft AOAI y GCR por su apoyo al punto final Azure-OpenAI.

También queremos dar las gracias a nuestros colegas de la Stanford AI-Assisted Care Partnership, que nos ayudaron a comprender las aplicaciones médicas exploradas en este trabajo. Estamos especialmente agradecidos a Ehsan Adeli, Paul Tang, Amit Kaushal, Roger Bohn, Kevin Schulman y Arnold Milstein por su experiencia y orientación clínicas.

Esta investigación ha contado con el apoyo de Microsoft Research Project Fair 2023, Microsoft HackBox 2023 y el equipo OCTO.