Agente de IA: explorando o mundo fronteiriço da interação multimodal [Fei-Fei Li - clássico de leitura obrigatória]

Agent AI: Surveying the Horizons of Multimodal Interaction (IA de agente: pesquisando os horizontes da interação multimodal).

Original: https://ar5iv.labs.arxiv.org/html/2401.03568

resumos

É provável que os sistemas de IA multimodal sejam onipresentes em nosso cotidiano. Uma abordagem promissora para tornar esses sistemas mais interativos é implementá-los como inteligências em ambientes físicos e virtuais. Atualmente, os sistemas utilizam modelos de base existentes como os blocos de construção básicos para a criação de inteligências incorporadas. A incorporação de inteligências em tais ambientes contribui para a capacidade do modelo de processar e interpretar dados visuais e contextuais, o que é fundamental para a criação de sistemas de IA mais complexos e conscientes do contexto. Por exemplo, um sistema capaz de perceber o comportamento do usuário, o comportamento humano, os objetos do ambiente, as representações de áudio e a emoção coletiva de uma cena pode ser usado para informar e orientar a resposta de um corpo inteligente em um determinado ambiente. Para acelerar o estudo de inteligências baseadas em inteligência multimodal, definimos "Agent AI" como uma classe de sistemas de interação que podem perceber estímulos visuais, entradas linguísticas e outros dados baseados no ambiente, e podem produzir comportamentos incorporados significativos. Em particular, exploramos sistemas que visam melhorar a previsão de inteligências com base no próximo comportamento incorporado, integrando conhecimento externo, entradas multissensoriais e feedback humano. Argumentamos que a ilusão de modelos de base grandes e sua tendência a produzir resultados ambientalmente incorretos também podem ser atenuados com o desenvolvimento de sistemas de IA de corpos inteligentes em ambientes fundamentados. O campo emergente da "IA de agente" abrange os aspectos corporais mais amplos e inteligentes da interação multimodal. Além das inteligências que atuam e interagem no mundo físico, prevemos um futuro em que as pessoas possam criar facilmente qualquer cenário de realidade virtual ou simulação e interagir com inteligências incorporadas ao ambiente virtual.

IA de agente: explorando os limites da interação multimodal-1
Figura 1: Visão geral de um sistema de IA de agente que pode perceber e agir em uma variedade de domínios e aplicações.A IA de agente está surgindo como um caminho promissor para a Inteligência Artificial Geral (AGI).O treinamento em IA de agente demonstrou a capacidade de realizar a compreensão multimodal no mundo físico. Ele oferece uma estrutura para treinamento independente da realidade, aproveitando a IA generativa e várias fontes de dados independentes. Quando treinados em dados de realidade cruzada, grandes modelos de base treinados para inteligências e tarefas relacionadas à ação podem ser aplicados aos mundos físico e virtual. Apresentamos uma visão geral de um sistema de IA de agente que pode perceber e agir em muitos domínios e aplicativos diferentes, servindo potencialmente como um caminho para a AGI usando o paradigma do corpo inteligente.

diretório (no disco rígido do computador)

1 introdutório
1. 1.1 locomotiva
2. 1.2 contextos
3. 1.3 delineado
2 Integração da IA do agente
1. 2.1 Inteligência de IA infinita
2. 2.2 IA de agente usando um modelo de base grande
  1. 2.2.1 fruto da imaginação de alguém
  2. 2.2.2 Preconceito e inclusão
  3. 2.2.3 Privacidade e uso de dados
  4. 2.2.4 Interpretabilidade e descritividade
  5. 2.2.5 Aprimoramento do raciocínio
  6. 2.2.6 de supervisão
3. 2.3 IA de agente para recursos emergentes
3 Paradigma de IA de agente
1. 3.1 Modelos de linguagem grandes e modelos de linguagem visual
2. 3.2 Definição de transformador de corpo inteligente
3. 3.3 Criação de um transformador de corpo inteligente
4 Aprendizagem com IA de agente
1. 4.1 Estratégias e mecanismos
  1. 4.1.1 Aprendizado por reforço (RL)
  2. 4.1.2 Aprendizagem por imitação (IL)
  3. 4.1.3 RGB convencional
  4. 4.1.4 Aprendizagem situacional
  5. 4.1.5 Otimização em sistemas corporais inteligentes
2. 4.2 Sistemas corporais inteligentes (zero e poucos níveis de amostragem)
  1. 4.2.1 Módulo de carroceria inteligente
  2. 4.2.2 Infraestrutura de corpo inteligente
3. 4.3 Modelo básico de carroceria inteligente (níveis de pré-treinamento e ajuste fino)
5 Classificação da IA do agente
1. 5.1 Campo geral do corpo inteligente
2. 5.2 inteligência incorporada
  1. 5.2.1 inteligência móvel
  2. 5.2.2 inteligência interativa
3. 5.3 Simulação e inteligências ambientais
4. 5.4 inteligência generativa
  1. 5.4.1 Corpo inteligente de AR/VR/Realidade mista
5. 5.5 Inteligência intelectual e de raciocínio lógico
  1. 5.5.1 Unidade de Inteligência Intelectual (KIU)
  2. 5.5.2 inteligência lógica
  3. 5.5.3 Intelligentsia para raciocínio emocional
  4. 5.5.4 Unidade de Inteligência Neurossimbólica (NSI)
6. 5.6 Modelagem de linguagem grande e modelagem de linguagem visual Intelligentsia
6 Tarefas do aplicativo de IA do agente
1. 6.1 Corpos inteligentes para jogos
  1. 6.1.1 Comportamento do NPC
  2. 6.1.2 Interação humano-NPC
  3. 6.1.3 Análise inteligente de jogos com base no corpo
  4. 6.1.4 Para composição de cenas de jogos
  5. 6.1.5 Experimentos e resultados
2. 6.2 Robótica
  1. 6.2.1 Inteligências de modelo de linguagem grande/modelo de linguagem visual para robótica.
  2. 6.2.2 Experimentos e resultados.
3. 6.3 cuidados com a saúde
  1. 6.3.1 Capacidade atual de assistência médica
4. 6.4 inteligência multimodal
  1. 6.4.1 Compreensão e geração de linguagem de imagem
  2. 6.4.2 Compreensão e geração de vídeos e idiomas
  3. 6.4.3 Experimentos e resultados
5. 6.5 Vídeo - Experimento com idiomas
6. 6.6 Intelligentsia para processamento de linguagem natural
  1. 6.6.1 Inteligência de modelagem de Big Language
  2. 6.6.2 Inteligência de modelagem de linguagem grande universal (ULM)
  3. 6.6.3 Command-Following Large Language Model Intelligentsia
  4. 6.6.4 Experimentos e resultados
7 IA de agente entre modalidades, domínios e realidades
1. 7.1 Intelligentsia para compreensão multimodal
2. 7.2 Intelligentsia para compreensão entre domínios
3. 7.3 Intelligentsia interativa para modalidades e realidades cruzadas
4. 7.4 Migração da simulação para a realidade
8 Aprimoramento contínuo e automático da IA do agente
1. 8.1 Dados baseados na interação humana
2. 8.2 Dados gerados pelo modelo básico
9 Conjuntos de dados e tabelas de classificação Smartbody
1. 9.1 O conjunto de dados "CuisineWorld" para jogos de inteligência múltipla
  1. 9.1.1 padrão de referência
  2. 9.1.2 mandatos
  3. 9.1.3 Indicadores e julgamentos
  4. 9.1.4 avaliação
2. 9.2 Conjunto de dados de pré-treinamento de linguagem de áudio e vídeo.
10 Declaração de impacto mais ampla
11 considerações éticas
12 Declaração de diversidade
A Detalhes do alerta corporal inteligente GPT-4V
B GPT-4V para Bleeding Edge
C GPT-4V para o Microsoft Flight Simulator
D GPT-4V para Assassin's Creed Odyssey
E GPT-4V para GEARS of WAR 4
F GPT-4V para Starfield

1 Introdução

1.1 Motivação

Historicamente, os sistemas de IA foram definidos na Conferência de Dartmouth em 1956 como "formas de vida artificial" capazes de coletar informações do ambiente e interagir com ele de maneira útil. Inspirado por essa definição, o grupo de Minsky no MIT construiu um sistema robótico em 1970 chamado Replica Demonstration, que observou um cenário de "mundo de blocos" e reconstruiu com sucesso a estrutura de blocos poliédricos observada. O sistema incluía módulos de observação, planejamento e manipulação, revelando que cada subproblema era desafiador e exigia mais pesquisas. O campo da IA está fragmentado em subcampos especializados que fizeram grandes progressos na solução desses e de outros problemas, mas a simplificação excessiva obscurece os objetivos gerais da pesquisa em IA.

Para ir além do status quo, é necessário retornar aos fundamentos da IA orientados pelo holismo aristotélico. Felizmente, as recentes revoluções na Modelagem de Linguagem Grande (LLM/Modelo de Linguagem Grande) e na Modelagem de Linguagem Visual (VLM/Modelo de Linguagem Visual) possibilitaram a criação de novos tipos de inteligências de IA que estão em conformidade com os ideais holísticos. Aproveitando essa oportunidade, este artigo explora modelos que integram competência linguística, cognição visual, memória contextual, raciocínio intuitivo e adaptabilidade. Ele explora o potencial do uso de modelos de linguagem grandes e modelos de linguagem visual para realizar essa síntese holística. Em nossa exploração, também revisitamos o projeto de sistemas baseados na "causa proposital" de Aristóteles, ou seja, a "razão da existência do sistema" teleológica, que pode ter sido negligenciada em desenvolvimentos anteriores de IA.

O renascimento do processamento de linguagem natural e da visão computacional foi catalisado com o surgimento de poderosos modelos de linguagem grande pré-treinados e modelos de linguagem visual. Os modelos de big language agora demonstram uma incrível capacidade de decifrar as nuances dos dados linguísticos do mundo real, muitas vezes igualando ou até mesmo superando a experiência humana OpenAI (2023). Recentemente, os pesquisadores mostraram que os modelos de linguagem grande podem ser estendidos para atuar em uma variedade de ambientes, comocorpo inteligenteque executam ações e tarefas complexas quando combinadas com módulos e conhecimentos específicos do domínio Xi et al. (2023). Esses cenários são caracterizados por raciocínio complexo, compreensão das funções das inteligências e de seus ambientes e planejamento em várias etapas, testando a capacidade das inteligências de tomar decisões altamente matizadas e complexas dentro das restrições de seu ambiente Wu et al. (2023); Meta Fundamental AI Research Diplomacy Team et al. (2022) Meta Equipe de Diplomacia da Pesquisa Fundamental de IA (FAIR), Bakhtin, Brown, Dinan, Farina, Flaherty, Fried, Goff, Gray, Hu, et al. (FAIR).

Com base nesses esforços iniciais, a comunidade de IA está no limiar de uma grande mudança de paradigma, deixando de lado a criação de modelos de IA para tarefas passivas e estruturadas e passando a usar modelos capazes de assumir o papel de corpos dinâmicos e inteligentes em ambientes diversos e complexos. Nesse contexto, este artigo investiga o grande potencial do uso de modelos de linguagem grandes e modelos de linguagem visual como inteligência, enfatizando modelos que combinam competência linguística, cognição visual, memória contextual, raciocínio intuitivo e adaptabilidade. O uso de modelos de linguagem grandes e modelos de linguagem visual como inteligíveis, especialmente em áreas como jogos, robótica e saúde, não só fornece uma plataforma rigorosa para a avaliação de sistemas de IA de última geração, mas também prenuncia o impacto transformador que a IA centrada em inteligíveis terá na sociedade e no setor. Quando totalmente utilizados, os modelos corporais inteligentes podem redefinir a experiência humana e elevar os padrões operacionais. O potencial de automação total desses modelos anuncia uma mudança radical na dinâmica socioeconômica e do setor. Esses avanços serão entrelaçados com placares multifacetados, não apenas tecnologicamente, mas também eticamente, conforme elaboraremos na Seção 11. Vamos nos aprofundar nos domínios sobrepostos desses subcampos da Inteligência Artificial do Corpo Inteligente e ilustrar sua interconexão na Figura 1.

1.2 Histórico

Agora, apresentaremos artigos de pesquisa relevantes que apoiam o conceito, a base teórica e as implementações modernas da Inteligência Artificial para Corpos Inteligentes.

Modelos básicos em grande escala.

Modelos de linguagem grandes e modelos de linguagem visual têm impulsionado os esforços para desenvolver máquinas inteligentes de uso geral (Bubeck et al., 2023; Mirchandani et al., 2023). Embora sejam treinados usando grandes corpora de texto, seus recursos superiores de resolução de problemas não se limitam ao domínio canônico de processamento de linguagem. Os modelos de linguagem de grande porte têm o potencial de lidar com tarefas complexas que antes eram consideradas exclusivas de especialistas humanos ou algoritmos específicos de domínio, desde o raciocínio matemático (Imani et al., 2023; Wei et al., 2022; Zhu et al., 2022) até a resposta a perguntas jurídicas especializadas (Blair-Stanek et al., 2023; Choi et al., 2023; Nay, 2022). 2023; Nay, 2022). Pesquisas recentes mostraram que é possível gerar planos complexos para IAs robóticas e de jogos usando modelos de linguagem grandes (Liang et al., 2022; Wang et al., 2023a, b; Yao et al., 2023a; Huang et al., 2023a), o que representa um marco importante no uso de modelos de linguagem grandes como inteligências inteligentes de uso geral.

IA incorporada.

Alguns trabalhos utilizaram modelos de linguagem grandes para executar o planejamento de tarefas (Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a), em particular o conhecimento de domínio em escala da World Wide Web e os recursos emergentes incorporados de amostra zero de modelos de linguagem grandes para executar o planejamento e o raciocínio de tarefas complexas. Pesquisas recentes em robótica também utilizaram grandes modelos de linguagem para realizar o planejamento de tarefas (Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022) decompondo comandos de linguagem natural em uma série de subtarefas (em forma de linguagem natural ou em forma de código Python), que são então executadas usando um controlador de baixo nível. Além disso, eles incorporam feedback ambiental para melhorar o desempenho da tarefa (Huang et al., 2022b), (Liang et al., 2022), (Wang et al., 2023a) e (Ikeuchi et al., 2023).

Aprendizagem interativa:

As inteligências de IA projetadas para aprendizado interativo operam usando uma combinação de técnicas de aprendizado de máquina e interação com o usuário. Inicialmente, as inteligências de IA são treinadas em um grande conjunto de dados. Esse conjunto de dados contém vários tipos de informações, dependendo da função pretendida das inteligências. Por exemplo, uma IA projetada para uma tarefa de linguagem seria treinada em um grande corpus de dados de texto. O treinamento envolve o uso de algoritmos de aprendizado de máquina, que podem incluir modelos de aprendizado profundo (por exemplo, redes neurais). Esses modelos de treinamento permitem que a IA reconheça padrões, faça previsões e gere respostas com base nos dados em que foi treinada. As inteligências de IA também podem aprender com as interações em tempo real com os usuários. Esse aprendizado interativo pode ocorrer de várias maneiras: 1) Aprendizado baseado em feedback: a IA ajusta suas respostas com base no feedback direto do usuário Li et al. (2023b); Yu et al. (2023a); Parakh et al. (2023); Zha et al. (2023); Wake et al. (2023a, b, c). Por exemplo, se o usuário corrigir a resposta da IA, a IA poderá usar essas informações para melhorar as respostas futuras Zha et al. (2023); Liu et al. (2023a). 2) Aprendizagem observacional: a IA observa as interações do usuário e aprende implicitamente. Por exemplo, se um usuário fizer perguntas semelhantes com frequência ou interagir com a IA de uma maneira específica, a IA poderá adaptar suas respostas para se adequar melhor a esses padrões. Isso permite que as inteligências de IA compreendam e processem a linguagem humana, as configurações multimodais, interpretem situações de realidade cruzada e gerem respostas de usuários humanos. Com o tempo, o desempenho das inteligências de IA geralmente continua a melhorar por meio de mais interação e feedback do usuário. Esse processo geralmente é supervisionado por um operador ou desenvolvedor humano que garante que a IA esteja aprendendo adequadamente e não desenvolva tendências ou padrões incorretos.

1.3 Visão geral

A IA de agente multimodal (MAA/Multimodal Agent AI) é um conjunto de sistemas que geram ações eficazes em um determinado ambiente com base na compreensão de entradas sensoriais multimodais. Com o surgimento do Modelo de Linguagem Grande (LLM/Modelo de Linguagem Grande) e do Modelo de Linguagem Visual (VLM/Modelo de Linguagem Visual), vários sistemas de IA de agentes multimodais foram propostos em áreas que vão desde a pesquisa básica até os aplicativos. Embora essas áreas de pesquisa estejam evoluindo rapidamente por meio da integração com técnicas tradicionais em cada domínio (por exemplo, questionamento visual e navegação em linguagem visual), elas compartilham interesses comuns, como coleta de dados, benchmarking e perspectivas éticas. Neste artigo, nos concentramos em algumas áreas de pesquisa representativas da IA para inteligências multimodais, a saber, multimodalidade, jogos (VR/AR/MR), robótica e saúde, e nosso objetivo é fornecer um conhecimento abrangente sobre as preocupações comuns discutidas nessas áreas. Portanto, queremos aprender os conceitos básicos de IA para inteligências multimodais e obter insights para avançar ainda mais em suas pesquisas. Os resultados específicos do aprendizado incluem:

Uma visão geral da Inteligência Artificial para a Inteligência Multimodal: uma análise aprofundada de seus princípios e função em aplicações contemporâneas, proporcionando aos pesquisadores uma compreensão abrangente de sua importância e usos.
METODOLOGIA: estudos de caso de jogos, robótica e saúde detalham como os modelos de macrolinguagem e os modelos de linguagem visual podem aprimorar a inteligência artificial de inteligências multimodais.
Avaliação de desempenho: um guia para avaliar a IA de inteligências multimodais usando conjuntos de dados relevantes, com foco em seus recursos de eficácia e generalização.
Considerações éticas: uma discussão sobre as implicações sociais e as classificações éticas da implantação da IA de corpos inteligentes, destacando as práticas de desenvolvimento responsável.
Emerging Trends and Future Charts (Tendências Emergentes e Gráficos Futuros): categoriza os desenvolvimentos mais recentes em cada área e discute as direções futuras.

A ação baseada em computador e as inteligências generalistas (GA/Agente Generalista) são úteis para muitas tarefas. Para que um Corpo Inteligente Generalista seja realmente valioso para seus usuários, ele pode interagir naturalmente e pode ser generalizado para uma ampla gama de contextos e modalidades. Nosso objetivo é promover um ecossistema de pesquisa vibrante na comunidade de IA de corpos inteligentes e criar um senso compartilhado de identidade e propósito. A IA de corpos inteligentes multimodais tem o potencial de ser aplicada a uma ampla variedade de contextos e modalidades, incluindo informações de seres humanos. Portanto, acreditamos que esse campo de IA de corpos inteligentes pode atrair uma grande variedade de pesquisadores, promovendo assim uma comunidade dinâmica de IA de corpos inteligentes e objetivos compartilhados. Liderado por especialistas renomados do setor e da academia, esperamos que este documento seja uma experiência interativa e enriquecedora, incluindo tutoriais sobre corpos inteligentes, estudos de caso, sessões de tarefas e discussões experimentais, garantindo uma experiência de aprendizado abrangente e envolvente para todos os pesquisadores.

O objetivo deste documento é fornecer conhecimento geral e abrangente sobre a pesquisa atual no campo da inteligência artificial para a intelligentsia. Para isso, o restante do documento está organizado da seguinte forma. A Seção 2 descreve como a IA para corpos inteligentes pode se beneficiar da integração com tecnologias emergentes relevantes, em especial modelos de base em larga escala. A Seção 3 descreve o novo paradigma e a estrutura que propomos para o treinamento da IA de corpos inteligentes. A Seção 4 apresenta uma visão geral dos métodos amplamente utilizados para treinar a IA de corpos inteligentes. A Seção 5 classifica e discute vários tipos de inteligências. A Seção 6 descreve as aplicações da IA de corpos inteligentes em jogos, robótica e saúde. A Seção 7 explora os esforços da comunidade de pesquisa para desenvolver uma IA de corpo inteligente de uso geral que possa ser aplicada a uma variedade de modalidades e domínios e preencher a lacuna entre simulação e realidade. A Seção 8 discute o potencial de uma IA de corpo inteligente que não se baseia apenas em modelos básicos pré-treinados, mas também aprende e se aprimora continuamente explorando as interações com o ambiente e o usuário. A Seção 9 descreve nosso novo conjunto de dados criado para treinar a IA de corpo inteligente multimodal. A Seção 11 discute o tema quente das inteligências de IA, as limitações e as considerações éticas das implicações sociais do nosso artigo.

2 Integração da Inteligência Artificial do Corpo Inteligente

Conforme sugerido em estudos anteriores, os modelos subjacentes baseados em modelos de macrolinguagem e modelos de linguagem visual ainda apresentam desempenho limitado no campo da IA incorporada, especialmente na compreensão, geração, edição e interação em ambientes ou cenas invisíveis Huang et al. (2023a); Zeng et al. (2023). Como resultado, essas limitações levam a um resultado abaixo do ideal das inteligências de IA. As abordagens atuais para a modelagem de IA centrada na inteligência concentram-se em dados diretamente acessíveis e bem definidos (por exemplo, representações textuais ou em cadeia do estado do mundo) e normalmente usam padrões independentes de domínio e ambiente aprendidos em seu pré-treinamento em larga escala para prever resultados de ações para cada ambiente Xi et al. (2023); Wang et al. (2023c); Gong et al. (2023a); Wu et al. (2023). Em (Huang et al., 2023a), investigamos a tarefa de colaboração guiada por conhecimento e geração de cenas interativas combinando modelos de base grandes e mostramos resultados promissores que sugerem que as inteligências baseadas em conhecimento de modelos de linguagem grandes podem melhorar o desempenho da compreensão, geração e edição de cenas 2D e 3D, bem como outras interações homem-computador Huang et al. (2023a). ). Ao integrar a estrutura de IA do Intelligent Body, o modelo de base grande é capaz de compreender mais profundamente as entradas do usuário, resultando em sistemas de interação homem-computador complexos e adaptáveis. Os recursos emergentes de modelos de linguagem grandes e modelos de linguagem visual desempenham uma função inédita na interação humano-computador para IA generativa, IA incorporada, aumento de conhecimento para aprendizado multimodal, geração de realidade mista, edição de texto para visão e simulação 2D/3D em jogos ou tarefas de robótica. Os recentes avanços na modelagem fundamental da IA de corpos inteligentes proporcionam um catalisador iminente para desbloquear a inteligência genérica em inteligências incorporadas. Modelos de ação em larga escala ou modelos de linguagem visual de inteligências abrem novas possibilidades para sistemas corporificados genéricos, como planejamento, solução de problemas e aprendizado em ambientes complexos. A IA incorporada inteligente dá novos passos no meta-universo e aponta o caminho para as primeiras versões da IA de uso geral.

IA de agente: explorando o mundo da interação multimodal [Fei-Fei Li - Clássico de leitura obrigatória]-1
Fig. 2: IA de corpo inteligente multimodal para geração incorporada 2D/3D e interações de edição em toda a realidade.

2.1 Inteligência artificial infinita

As inteligências de inteligência artificial têm a capacidade de interpretar, prever e responder com base em seu treinamento e nos dados de entrada. Embora esses recursos sejam avançados e estejam melhorando, é importante reconhecer suas limitações e o impacto dos dados subjacentes nos quais eles são treinados. Os sistemas de inteligências de IA normalmente têm os seguintes recursos: 1) Modelagem preditiva: as inteligências de IA podem prever resultados prováveis ou sugerir etapas subsequentes com base em dados históricos e tendências. Por exemplo, elas podem prever a continuação de um texto, a resposta a uma pergunta, a próxima ação de um robô ou a solução de um cenário.2) Tomada de decisões: em alguns aplicativos, as inteligências de IA podem tomar decisões com base em suas inferências. Normalmente, as inteligências tomam decisões com base no que é mais provável que atinja o objetivo especificado. Para aplicações de IA, como sistemas de recomendação, as inteligências podem decidir quais produtos ou conteúdos recomendar com base em suas inferências sobre as preferências do usuário.3) Lidar com a ambiguidade: as inteligências de IA geralmente podem lidar com entradas ambíguas inferindo a interpretação mais provável com base no contexto e no treinamento. No entanto, sua capacidade de fazer isso é limitada pelo escopo de seus dados de treinamento e algoritmos.4) Melhoria contínua: embora algumas inteligências de IA tenham a capacidade de aprender com novos dados e interações, muitos modelos de linguagem grandes não atualizam continuamente sua base de conhecimento ou representações internas após o treinamento. Suas inferências geralmente se baseiam apenas nos dados disponíveis na última atualização do treinamento.

Na Figura 2, mostramos inteligências interativas aumentadas para integração multimodal e agnóstica entre realidades com mecanismos emergentes. As inteligências de inteligência artificial exigem a coleta de grandes quantidades de dados de treinamento para cada nova tarefa, o que pode ser caro ou impossível para muitos domínios. Neste estudo, desenvolvemos um corpo inteligente infinito que aprende a transferir informações na memória de um modelo básico de uso geral (por exemplo, GPT-X, DALL-E) para novos domínios ou cenários para compreensão, geração e edição interativa de cenários em um mundo físico ou virtual.

Uma aplicação dessas inteligências infinitas na robótica é o RoboGen Wang et al. (2023d). Nesse estudo, os autores apresentam um pipeline para a execução autônoma de sugestões de tarefas, geração de ambiente e ciclos de aprendizagem de habilidades. O RoboGen é um esforço para transferir conhecimento incorporado em modelos de larga escala para a robótica.

2.2 Inteligência artificial para a Intelligentsia com modelos de base grandes

Pesquisas recentes mostraram que os modelos de base em grande escala desempenham um papel crucial na criação de dados que funcionam como referências para determinar as ações de um corpo inteligente dentro das restrições impostas pelo ambiente. Os exemplos incluem o uso de modelos de base para manipulação de robôs Black et al. (2023); Ko et al. (2023) e navegação Shah et al. (2023a); Zhou et al. (2023a). Para ilustrar, Black et al. empregam um modelo de edição de imagens como um planejador de alto nível para gerar imagens de subobjetivos futuros para orientar a estratégia de baixo nível Black et al. (2023). Para a navegação de robôs, Shah et al. propõem um sistema que emprega um modelo de macrolinguagem para reconhecer pontos de referência do texto e um modelo de linguagem visual para associar esses pontos de referência a entradas visuais, aprimorando assim a navegação por meio de comandos de linguagem natural Shah et al. (2023a).

Há também um interesse crescente na geração de movimentos humanos condicionados, adaptados a fatores linguísticos e ambientais. Vários sistemas de IA foram propostos para gerar movimentos e ações personalizados para comandos linguísticos específicos Kim et al. (2023); Zhang et al. (2022); Tevet et al. (2022) e adaptados a uma variedade de cenas em 3D Wang et al. (2022a). Essa pesquisa destaca a crescente capacidade dos modelos generativos de aprimorar a adaptabilidade e a capacidade de resposta das inteligências de IA em uma variedade de cenários.

2.2.1 Alucinações

As inteligências que geram texto são frequentemente propensas a alucinações, ou seja, situações em que o texto gerado não tem sentido ou não corresponde ao conteúdo da fonte fornecida Raunak et al. (2021); Maynez et al. (2020). As ilusões podem ser divididas em duas categorias.ilusão interiorresponder cantandoilusão externa Ji et al. (2023). As ilusões intrínsecas são aquelas que contradizem o material de origem, enquanto as ilusões extrínsecas são os casos em que o texto gerado contém informações adicionais não incluídas inicialmente no material de origem.

Alguns caminhos promissores para reduzir a taxa de ilusões na geração de linguagem incluem o uso de recuperação para aprimorar a geração Lewis et al. (2020); Shuster et al. (2021) ou outras abordagens que apoiam a saída de linguagem natural por meio da recuperação de conhecimento externo Dziri et al. (2021); Peng et al. (2023). Normalmente, essas abordagens visam aprimorar a geração de linguagem recuperando outro material de origem e fornecendo mecanismos para verificar se há contradições entre a resposta gerada e o material de origem.

No contexto dos sistemas corporais inteligentes multimodais, também foi demonstrado que os modelos de linguagem visual produzem alucinações Zhou et al. (2023b). Uma causa comum de alucinações na geração de linguagem com base visual é uma dependência excessiva da coocorrência de objetos e pistas visuais nos dados de treinamento Rohrbach et al. (2018). As inteligências de IA que dependem exclusivamente de modelos de linguagem visual ou de macrolinguagem pré-treinados e usam um ajuste fino limitado específico do contexto podem ser particularmente propensas a alucinações porque dependem da base de conhecimento interna do modelo pré-treinado para gerar ações e podem não entender com precisão a dinâmica do estado mundial em que são implantadas.

2.2.2 Preconceito e inclusão

As inteligências de IA baseadas em grandes modelos de linguagem (LLMs) ou grandes modelos multimodais (LMMs) são tendenciosas devido a vários fatores inerentes ao seu processo de design e treinamento. Ao projetar essas inteligências de IA, devemos estar atentos à inclusão e às necessidades de todos os usuários finais e partes interessadas. No contexto das inteligências de IA, anão exclusividade refere-se às medidas e aos princípios adotados para garantir que as respostas e as interações da intelligentsia sejam inclusivas, respeitosas e sensíveis a uma ampla gama de usuários de diversas origens. A seguir, apresentaremos os principais aspectos da parcialidade e da inclusão dos corpos inteligentes.

Dados de treinamentoO modelo subjacente é treinado em uma grande quantidade de dados textuais coletados da Internet, incluindo livros, artigos, sites e outras fontes textuais. Esses dados geralmente refletem preconceitos existentes na sociedade humana, que o modelo pode aprender e reproduzir inadvertidamente. Isso inclui estereótipos, preconceitos e visões tendenciosas relacionadas a raça, gênero, etnia, religião e outros atributos pessoais. Em particular, ao treinar com dados da Internet e, muitas vezes, usar apenas texto em inglês para treinamento, os modelos aprendem implicitamente as normas culturais das sociedades ocidentais, educadas, industrializadas, ricas e democráticas (WEIRD) Henrich et al. ( 2010 ), que têm uma presença desproporcional na Internet. No entanto, é importante reconhecer que os conjuntos de dados criados por seres humanos não podem ser totalmente isentos de preconceitos, pois geralmente refletem preconceitos sociais e também os dos indivíduos que originalmente geraram e/ou compilaram os dados.
Viés histórico e culturalModelos de IA são treinados em grandes conjuntos de dados de diversos conteúdos. Dessa forma, os dados de treinamento geralmente incluem textos históricos ou materiais de diferentes culturas. Em particular, os dados de treinamento de fontes históricas podem conter linguagem ofensiva ou depreciativa que representa as normas culturais, as atitudes e os preconceitos de uma determinada sociedade. Isso pode resultar em modelos que perpetuam estereótipos desatualizados ou que não conseguem entender totalmente as mudanças e nuances culturais contemporâneas.
Restrições linguísticas e contextuaisModelos de linguagem: os modelos de linguagem podem ter dificuldade para entender e representar com precisão as nuances da linguagem, como ironia, humor ou alusões culturais. Isso pode levar a mal-entendidos ou respostas tendenciosas em alguns casos. Além disso, muitos aspectos da linguagem falada não são capturados por dados somente de texto, o que leva a uma possível desconexão entre como os humanos entendem a linguagem e como os modelos a entendem.
Políticas e diretrizesInteligências de IA: as inteligências de IA operam sob políticas e diretrizes rigorosas para garantir a justiça e a inclusão. Por exemplo, ao gerar imagens, há regras para diversificar a representação de personagens e evitar estereótipos associados a raça, gênero e outros atributos.
generalização excessivaModelos de treinamento: Esses modelos tendem a gerar respostas com base em padrões observados nos dados de treinamento. Isso pode levar à generalização excessiva e os modelos podem gerar respostas que parecem estereotipar determinados grupos ou fazer suposições amplas.
Monitoramento e atualização contínuosO sistema de IA é continuamente monitorado e atualizado para tratar de quaisquer questões emergentes de parcialidade ou inclusão. O feedback dos usuários e a pesquisa contínua em ética de IA desempenham um papel fundamental nesse processo.
Ampliação da visão dominanteComo os dados de treinamento geralmente contêm mais conteúdo da cultura ou do grupo dominante, o modelo pode ser mais tendencioso em relação a essas visões e, portanto, pode subestimar ou distorcer as visões dos grupos minoritários.
Design ético e inclusivoAs ferramentas de IA devem ser projetadas com considerações éticas e inclusão como princípios fundamentais. Isso inclui respeitar as diferenças culturais, promover a diversidade e garantir que a IA não perpetue estereótipos prejudiciais.
Guia do usuárioOs usuários também são instruídos sobre como interagir com a IA de forma a promover a inclusão e o respeito. Isso inclui evitar solicitações que possam levar a resultados tendenciosos ou inadequados. Além disso, pode ajudar a mitigar situações em que o modelo aprende material prejudicial a partir das interações do usuário.

Apesar dessas medidas, os preconceitos nas inteligências de IA persistem. Os esforços contínuos de pesquisa e desenvolvimento do AI for Intelligentsia estão concentrados em reduzir ainda mais esses vieses e aumentar a inclusão e a justiça dos sistemas AI for Intelligentsia. Esforços de redução de preconceitos:

Dados de treinamento diversificados e inclusivosEsforços estão sendo feitos para incluir fontes mais diversificadas e inclusivas nos dados de treinamento.
Detecção e correção de distorçõesPesquisa em andamento: A pesquisa em andamento se concentra na detecção e correção de distorções nas respostas do modelo.
Diretrizes e políticas éticasOs modelos geralmente estão vinculados a diretrizes e políticas éticas criadas para atenuar preconceitos e garantir interações respeitosas e inclusivas.
Representação diversificadaInteligência de IA: garantir que o conteúdo gerado ou as respostas fornecidas pelas inteligências de IA representem uma ampla gama de experiências, culturas, etnias e identidades humanas. Isso é particularmente relevante em cenários como a geração de imagens ou a construção de narrativas.
Mitigação de viesesTrabalho ativo para reduzir a parcialidade nas respostas de IA. Isso inclui preconceitos relacionados a raça, gênero, idade, deficiência, orientação sexual e outras características pessoais. O objetivo é fornecer uma resposta justa e equilibrada, e não perpetuar estereótipos ou preconceitos.
Sensibilidade culturalOs projetos da AI são culturalmente sensíveis, reconhecendo e respeitando a diversidade de normas, práticas e valores culturais. Isso inclui compreender e responder adequadamente às referências e nuances culturais.
acessibilidadeInteligência de IA: Garanta que as inteligências de IA sejam acessíveis a usuários com diferentes habilidades, incluindo aqueles com deficiências. Isso pode envolver a incorporação de recursos que facilitem a interação de pessoas com deficiências visuais, auditivas, motoras ou cognitivas.
Inclusão baseada no idiomaSuporte a vários idiomas e dialetos para uma base de usuários global e sensibilidade às nuances e variações internas do idioma Liu et al. ( 2023b ).
Interação ética e respeitosaInteligência: A inteligência é programada para interagir de forma ética e respeitosa com todos os usuários, evitando respostas que possam ser consideradas ofensivas, prejudiciais ou desrespeitosas.
Feedback e adaptação do usuárioIncorporar o feedback do usuário para melhorar continuamente a inclusão e a eficácia das inteligências de IA. Isso inclui aprender com as interações para entender melhor e atender a uma base de usuários diversificada.
Conformidade com as diretrizes inclusivasAderir a diretrizes e padrões estabelecidos para a inclusão de inteligências de IA, que normalmente são definidos por grupos do setor, comitês de ética ou órgãos reguladores.

Apesar desses esforços, é importante estar ciente da possibilidade de vieses nas respostas e pensar criticamente sobre como interpretá-las. Os aprimoramentos contínuos na tecnologia de inteligências de IA e nas práticas éticas visam a reduzir esses vieses ao longo do tempo. Corpos inteligentes Um dos objetivos gerais da inclusão da IA é criar um corpo inteligente que seja respeitoso e acessível a todos os usuários, independentemente de sua formação ou identidade.

2.2.3 Privacidade e uso dos dados

Uma consideração ética fundamental para as inteligências de IA envolve a compreensão de como esses sistemas processam, armazenam e, potencialmente, recuperam os dados do usuário. Discutiremos os principais aspectos a seguir:

Coleta, uso e finalidade dos dados.

Ao usar os dados do usuário para melhorar o desempenho do modelo, os desenvolvedores de modelos têm acesso aos dados coletados pelas inteligências de IA na produção e na interação com os usuários. Alguns sistemas permitem que os usuários visualizem seus dados por meio de sua conta de usuário ou enviando uma solicitação a um provedor de serviços. É importante reconhecer quais dados as inteligências de IA estão coletando durante essas interações. Isso pode incluir entrada de texto, padrões de uso do usuário, preferências pessoais e, às vezes, informações pessoais mais confidenciais. Os usuários também devem entender como os dados coletados de suas interações são usados. Se, por algum motivo, a IA mantiver informações incorretas sobre um determinado indivíduo ou grupo, deve haver um mecanismo para que o usuário ajude a corrigir o erro assim que ele for reconhecido. Isso é importante para a precisão e o respeito a todos os usuários e grupos. Os usos comuns para recuperar e analisar os dados do usuário incluem melhorar a interação do usuário, personalizar as respostas e otimizar os sistemas. É importante que os desenvolvedores garantam que os dados não sejam usados para fins que os usuários não tenham consentido (por exemplo, marketing não solicitado).

Armazenamento e segurança.

Os desenvolvedores devem estar cientes de onde os dados de interação do usuário são armazenados e das medidas de segurança em vigor para protegê-los contra acesso ou divulgação não autorizados. Isso inclui criptografia, servidores seguros e protocolos de proteção de dados. É importante determinar se e sob quais condições os dados de corpos inteligentes são compartilhados com terceiros. Isso deve ser transparente e geralmente requer o consentimento do usuário.

Exclusão e retenção de dados.

Também é importante que os usuários entendam por quanto tempo os dados do usuário são armazenados e como eles podem solicitar a exclusão de seus dados. Muitas leis de proteção de dados dão aos usuários o direito de serem esquecidos, o que significa que eles podem solicitar a exclusão de seus dados.AI Intelligentsia deve cumprir as leis de proteção de dados, como o GDPR da UE ou a CCPA da Califórnia. Essas leis regem as práticas de processamento de dados e os direitos dos usuários sobre seus dados pessoais.

Política de privacidade e portabilidade de dados.

Além disso, os desenvolvedores devem criar uma política de privacidade para que as inteligências de IA documentem e expliquem aos usuários como seus dados serão tratados. Isso deve detalhar a coleta de dados, o uso, o armazenamento e os direitos do usuário. Os desenvolvedores devem garantir que obtenham o consentimento do usuário para a coleta de dados, especialmente para informações confidenciais. Em geral, os usuários podem optar por não participar ou restringir os dados que fornecem. Em algumas jurisdições, os usuários podem até ter o direito de solicitar uma cópia de seus dados em um formato que possa ser transferido para outro provedor de serviços.

Anonimização.

Para dados usados em análises mais amplas ou treinamento de IA, o ideal é que sejam anônimos para proteger as identidades individuais. Os desenvolvedores devem entender como suas inteligências de IA recuperam e usam dados históricos do usuário durante as interações. Isso pode ser feito para personalização ou para melhorar a relevância de uma resposta.

Em resumo, a compreensão da privacidade de dados para inteligências de IA inclui a compreensão de como os dados do usuário são coletados, usados, armazenados e protegidos, além de garantir que os usuários estejam cientes de seus direitos em relação ao acesso, correção e exclusão de seus dados. Compreender os mecanismos de recuperação de dados dos usuários e das inteligências de IA também é fundamental para uma compreensão completa da privacidade dos dados.

2.2.4 Interpretabilidade e descritividade

Aprendizado por imitação → desacoplamento

Normalmente, as inteligências são treinadas usando loops de feedback contínuos no aprendizado por reforço (RL) ou aprendizado por imitação (IL), começando com uma estratégia inicializada aleatoriamente. Entretanto, essa abordagem enfrenta gargalos na obtenção de recompensas iniciais em ambientes desconhecidos, especialmente quando as recompensas são esparsas ou só estão disponíveis no final de interações de etapas longas. Portanto, uma solução superior é usar inteligências de memória infinita treinadas por meio da aprendizagem por imitação, que pode aprender estratégias com dados de especialistas, o que leva a uma melhor exploração e utilização de espaços ambientais não vistos, bem como de infraestruturas emergentes, conforme mostrado na Figura 3. Com recursos especializados para ajudar as inteligências a explorar melhor os espaços ambientais invisíveis. A IA de corpos inteligentes pode aprender estratégias e processos de novos paradigmas diretamente de dados especializados.

O aprendizado por imitação tradicional permite que as inteligências aprendam estratégias imitando o comportamento de um demonstrador especializado. No entanto, aprender estratégias de especialistas diretamente pode nem sempre ser a melhor abordagem, pois o corpo inteligente pode não ser bem generalizado para situações inéditas. Para resolver esse problema, propomos aprender um corpo inteligente com dicas contextuais ou funções de recompensa implícitas que capturam os principais aspectos do comportamento do especialista, conforme mostrado na Figura 3. Isso equipa as inteligências de memória infinita com dados comportamentais do mundo físico aprendidos com demonstrações de especialistas para a execução de tarefas. Isso ajuda a superar as desvantagens do aprendizado por imitação existente, como a necessidade de grandes quantidades de dados de especialistas e a possibilidade de erro em tarefas complexas. A ideia principal por trás do Intelligent Body AI tem dois componentes: 1) o Infinite Intelligent Body, que coleta demonstrações de especialistas do mundo físico como pares estado-ação, e 2) o ambiente virtual do Imitation Intelligent Body Generator. O Imitation Intelligent Body gera ações que imitam o comportamento do especialista, enquanto o Intelligent Body aprende um mapeamento de política de estados para ações reduzindo a função de perda da diferença entre as ações do especialista e as ações geradas pela política de aprendizado.

Desacoplamento → Generalização

Em vez de depender de funções de recompensa específicas da tarefa, o corpo inteligente aprende com demonstrações de especialistas que fornecem um conjunto diversificado de pares estado-ação que abrangem vários aspectos da tarefa. Em seguida, o corpo inteligente aprende estratégias para mapear estados para ações, imitando o comportamento do especialista. A dissociação na aprendizagem por imitação refere-se à separação do processo de aprendizagem da função de recompensa específica da tarefa, permitindo assim que as estratégias sejam generalizadas em diferentes tarefas sem depender explicitamente da função de recompensa específica da tarefa. Por meio da dissociação, uma pessoa inteligente pode aprender com demonstrações de especialistas e aprender uma estratégia que pode ser adaptada a várias situações. A dissociação permite a aprendizagem por transferência, na qual uma estratégia aprendida em um domínio pode ser adaptada a outros domínios com um ajuste fino mínimo. Ao aprender uma estratégia generalizada que não está vinculada a uma função de recompensa específica, um corpo inteligente pode usar o conhecimento que adquiriu em uma tarefa para ter um bom desempenho em outras tarefas relacionadas. Como o corpo inteligente não depende de uma função de recompensa específica, ele pode se adaptar às mudanças na função de recompensa ou no ambiente sem precisar de muito retreinamento. Isso torna as estratégias aprendidas mais robustas e generalizáveis em diferentes ambientes. Nesse contexto, a dissociação refere-se à separação de duas tarefas no processo de aprendizagem: aprender a função de recompensa e aprender a política ideal.

IA de agente: explorando os limites da interação multimodal-3
Figura 3: Exemplo de um mecanismo de interação emergente que usa inteligências para identificar textos relacionados a imagens a partir de textos candidatos. A tarefa envolve a integração de informações do mundo externo usando inteligências de IA multimodais da rede e amostras de interação de conhecimento rotuladas manualmente.

Generalização → comportamento emergente

A generalização explica como as propriedades ou os comportamentos emergentes podem surgir de componentes ou regras mais simples. A ideia principal é identificar os elementos ou regras básicas que controlam o comportamento do sistema, como neurônios individuais ou algoritmos básicos. Assim, observando como esses componentes ou regras simples interagem uns com os outros. As interações desses componentes muitas vezes levam ao surgimento de comportamentos complexos que não podem ser previstos apenas pela análise dos componentes individuais. A generalização em diferentes níveis de complexidade permite que o sistema aprenda princípios genéricos que se aplicam a esses níveis, levando a propriedades emergentes. Isso permite que o sistema se adapte a novas situações, demonstrando o surgimento de comportamentos mais complexos a partir de regras mais simples. Além disso, a capacidade de generalizar em diferentes níveis de complexidade facilita a transferência de conhecimento de um domínio para outro, o que ajuda a fazer surgir comportamentos complexos em novos ambientes à medida que o sistema se adapta.

2.2.5 Aprimoramento do raciocínio

Os recursos de raciocínio das inteligências de IA estão em sua capacidade de interpretar, prever e responder com base em dados de treinamento e de entrada. Embora esses recursos sejam avançados e estejam melhorando, é importante reconhecer suas limitações e o impacto dos dados subjacentes nos quais eles são treinados. Em particular, no contexto dos Modelos de Linguagem Ampla (LLMs), isso se refere à sua capacidade de tirar conclusões, fazer previsões e gerar respostas com base nos dados em que são treinados e nas entradas que recebem. O aumento do raciocínio em inteligências de IA refere-se ao uso de ferramentas, técnicas ou dados adicionais para aumentar os recursos de raciocínio natural de uma IA a fim de melhorar seu desempenho, precisão e utilidade. Isso é particularmente importante em cenários complexos de tomada de decisão ou ao lidar com conteúdo especializado ou com nuances. A seguir, listaremos fontes particularmente importantes de aprimoramento do raciocínio:

Riqueza de dados.

A incorporação de fontes de dados adicionais (geralmente externas) para fornecer mais contexto ou histórico pode ajudar as inteligências de IA a fazer inferências mais informadas, especialmente em áreas em que seus dados de treinamento podem ser limitados. Por exemplo, as inteligências de IA podem inferir o significado do contexto de um diálogo ou texto. Elas analisam as informações fornecidas e as utilizam para entender a intenção e os detalhes relevantes da consulta de um usuário. Esses modelos são bons em reconhecer padrões nos dados. Eles usam essa capacidade para inferir informações sobre a linguagem, o comportamento do usuário ou outros fenômenos relevantes com base nos padrões aprendidos durante o treinamento.

Aprimoramento algorítmico.

Aprimorar os algoritmos subjacentes da IA para melhorar o raciocínio. Isso pode envolver o uso de modelos de aprendizado de máquina mais avançados, a integração de diferentes tipos de IA (por exemplo, a combinação de processamento de linguagem natural (NLP) com reconhecimento de imagem) ou a atualização de algoritmos para lidar melhor com tarefas complexas. O raciocínio na modelagem de linguagem envolve a compreensão e a geração de linguagem humana. Isso inclui entender o tom, a intenção e as nuances de diferentes estruturas de linguagem.

Human in the Loop (HITL).

O envolvimento de humanos para aumentar o raciocínio da IA pode ser particularmente útil em áreas em que o julgamento humano é fundamental (por exemplo, considerações éticas, tarefas criativas ou cenários ambíguos). Os seres humanos podem fornecer orientação, corrigir erros ou oferecer percepções que a inteligência não pode inferir por conta própria.

Integração de feedback em tempo real.

Usar o feedback em tempo real do usuário ou do ambiente para aumentar o raciocínio é outra abordagem promissora para melhorar o desempenho durante o raciocínio. Por exemplo, uma IA pode ajustar suas recomendações com base nas respostas do usuário em tempo real ou nas mudanças de condições em um sistema dinâmico. Como alternativa, se a IA realizar uma ação que viole determinadas regras em um ambiente simulado, o feedback poderá ser fornecido dinamicamente à IA para ajudá-la a se corrigir.

Transferência de conhecimento interdisciplinar.

O uso de conhecimentos ou modelos de um domínio para aprimorar o raciocínio em outro é particularmente útil ao gerar resultados em disciplinas especializadas. Por exemplo, as técnicas desenvolvidas para a tradução de idiomas podem ser aplicadas à geração de códigos, ou as percepções de diagnósticos médicos podem aprimorar a manutenção preditiva de máquinas.

Personalização para casos de uso específicos.

A adaptação dos recursos de raciocínio de uma IA para um aplicativo ou setor específico pode envolver o treinamento da IA em conjuntos de dados especializados ou o ajuste fino de seu modelo para melhor atender a uma tarefa específica, como análise jurídica, diagnóstico médico ou previsão financeira. Como a linguagem ou as informações específicas de um domínio podem contrastar com a linguagem de outros domínios, o ajuste fino das inteligências no conhecimento específico do domínio pode ser benéfico.

Considerações éticas e de preconceito.

É importante garantir que o processo de aprimoramento não introduza novos vieses ou questões éticas. Isso envolve a consideração cuidadosa do impacto sobre a justiça e a transparência das fontes de dados adicionais ou de novos algoritmos de aprimoramento do raciocínio. Às vezes, as inteligências de IA precisam responder a considerações éticas ao raciocinar, especialmente sobre tópicos delicados. Isso inclui evitar estereótipos prejudiciais, respeitar a privacidade e garantir a justiça.

Aprendizado e adaptação contínuos.

Atualize e refine regularmente os recursos de IA para acompanhar os novos desenvolvimentos, as mudanças nos cenários de dados e a evolução das necessidades dos usuários.

Em resumo, o aumento do raciocínio em inteligências de IA envolve métodos para aumentar seus recursos de raciocínio natural com dados adicionais, algoritmos aprimorados, entrada humana e outras técnicas. Dependendo do caso de uso, esses aprimoramentos geralmente são essenciais para lidar com tarefas complexas e garantir a precisão do resultado das inteligências.

2.2.6 Regulamento

Recentemente, houve avanços significativos na IA de corpos inteligentes e sua integração com sistemas incorporados abriu novas possibilidades de interação com corpos inteligentes por meio de experiências mais imersivas, dinâmicas e envolventes. Para acelerar esse processo e aliviar o trabalho pesado envolvido no desenvolvimento da IA de corpos inteligentes, propomos o desenvolvimento de um pipeline de interação com corpos inteligentes habilitado para IA de última geração. Desenvolver um sistema de colaboração homem-máquina que permita que humanos e máquinas se comuniquem e interajam de forma significativa. O sistema poderia aproveitar os recursos de conversação e a ampla gama de ações de um Modelo de Linguagem Grande (LLM) ou Modelo de Linguagem Visual (VLM) para conversar com jogadores humanos e identificar as necessidades humanas. Em seguida, ele executará as ações apropriadas para auxiliar o jogador humano conforme necessário.

Ao usar modelos de linguagem ampla (LLMs)/modelos de linguagem visual (VLMs) para sistemas colaborativos entre humanos e robôs, é importante observar que esses modelos operam como caixas pretas e produzem resultados imprevisíveis. Essa incerteza pode se tornar crítica em ambientes físicos (por exemplo, na operação de um robô real). Uma maneira de enfrentar esse desafio é limitar o foco do Modelo de Linguagem Ampla (LLM)/Modelo de Linguagem Visual (VLM) por meio da engenharia de dicas. Por exemplo, ao executar o planejamento de tarefas robóticas com base em instruções, foi relatado que o fornecimento de informações ambientais em dicas produz resultados mais estáveis do que confiar apenas no texto, Gramopadhye e Szafir (2022). Esse relatório é apoiado pela teoria da estrutura de IA de Minsky Minsky (1975), que sugere que o espaço do problema a ser resolvido por um Modelo de Linguagem Ampla (LLM)/Modelo de Linguagem Visual (VLM) é definido por um determinado prompt. Outra abordagem é projetar prompts de modo que o Large Language Model (LLM)/Visual Language Model (VLM) contenha texto explicativo para permitir que o usuário entenda o que o modelo está focalizando ou reconhecendo. Além disso, a implementação de um nível mais alto que permita a validação e a modificação pré-execução orientada por humanos pode facilitar a operação de sistemas que funcionam sob essa orientação (Figura 4).

IA de agente: explorando os limites da interação multimodal-4
Figura 4: Sistema de ensino de robótica desenvolvido em Wake et al. (2023c). (Esquerda) Fluxo de trabalho do sistema. O processo consiste em três etapas: planejamento de tarefas, que ChatGPT Planejamento de tarefas do robô com base em comandos e informações ambientais; Demonstração, em que o usuário demonstra visualmente as sequências de ação. Todas as etapas são revisadas pelo usuário e, se alguma etapa falhar ou apresentar defeitos, as etapas anteriores podem ser revisadas conforme necessário. (à direita) Um aplicativo da Web que permite o upload de dados de demonstração e a interação entre o usuário e o ChatGPT.

2.3 Intelligentsia AI para recursos emergentes

Apesar da crescente adoção de sistemas de IA de inteligências interativas, a maioria das abordagens propostas ainda enfrenta desafios em termos de desempenho de generalização em ambientes ou cenários não vistos. As práticas atuais de modelagem exigem que os desenvolvedores preparem grandes conjuntos de dados para cada domínio a fim de ajustar/pré-treinar os modelos; no entanto, esse processo é caro ou até mesmo impossível se o domínio for novo. Para resolver esse problema, criamos inteligências interativas que utilizam a memória de conhecimento de modelos básicos genéricos (ChatGPT, Dall-E, GPT-4 etc.) para novos cenários, especialmente para gerar espaços colaborativos entre humanos e inteligências. Identificamos um mecanismo emergente - que chamamos de realidade mista com interações de conhecimento e raciocínio - que facilita a colaboração com humanos para resolver tarefas desafiadoras em ambientes complexos do mundo real e a capacidade de explorar ambientes invisíveis para se adaptar à realidade virtual. Para esse mecanismo, as inteligências aprendem i) microrespostas em todas as modalidades: coletando conhecimento individual relevante para cada tarefa de interação a partir de fontes de rede explícitas (por exemplo, para entender cenários inéditos) e inferindo-o implicitamente a partir da saída de um modelo pré-treinado; e ii) macrocomportamentos de maneira independente da realidade: refinando as dimensões e os padrões de interação nos domínios linguístico e multimodal e raciocinando sobre o papel das representações, sobre determinadas variáveis de objetivo, sobre a realidade mista e sobre a diversidade de influência das informações colaborativas no Modelo de Linguagem Grande (LLM). Investigamos a tarefa de sinergias de interação orientadas pelo conhecimento para a geração de cenários em colaboração com vários modelos OpenAI e mostramos como o sistema Interactive Intelligentsia pode aprimorar ainda mais os resultados promissores dos modelos de base em larga escala em nossa configuração. Ele integra e aprimora a profundidade da generalização, a conscientização e a interpretabilidade de sistemas complexos de IA adaptativa.

3 Paradigma de IA do corpo inteligente

Nesta seção, discutiremos um novo paradigma e uma nova estrutura para o treinamento de IA para inteligências. Esperamos atingir vários objetivos com a estrutura proposta:

-
Usando os modelos de pré-treinamento e as estratégias de pré-treinamento existentes, nossas inteligências são orientadas de forma eficaz para entender modalidades importantes, como entradas textuais ou visuais.
-
Apoiar a capacidade adequada de planejamento de missão de longo prazo.
-
Introdução de uma estrutura mnemônica que permite que o aprendizado seja codificado e recuperado posteriormente.
-
Permite o uso de feedback ambiental para treinar efetivamente as inteligências para que aprendam quais ações devem ser tomadas.

Mostramos um diagrama de alto nível de novas inteligências na Figura 5, delineando os submódulos importantes desse sistema.

IA de agente: explorando os limites da interação multimodal-5
Fig. 5: Nosso novo paradigma de corpo inteligente proposto para inteligências multimodais de propósito geral. Conforme mostrado, há cinco módulos principais: 1) ambiente e percepção, incluindo planejamento de tarefas e observação de habilidades; 2) aprendizado do corpo inteligente; 3) memória; 4) ação do corpo inteligente; e 5) cognição.

3.1 Modelos de linguagem grandes e modelos de linguagem visual

Podemos usar um Modelo de Linguagem Grande (LLM) ou um Modelo de Linguagem Visual (VLM) para inicializar os componentes de um corpo inteligente, conforme mostrado na Figura 5. Em particular, foi demonstrado que os modelos de linguagem grande têm um bom desempenho no planejamento de tarefas Gong et al. (2023a), contêm uma grande quantidade de conhecimento do mundo Yu et al. (2023b) e apresentam um raciocínio lógico impressionante Creswell et al. (2022). Além disso, modelos de linguagem visual como o CLIP Radford et al. (2021) fornecem um codificador visual genérico alinhado à linguagem, além de oferecer recursos de reconhecimento visual de amostra zero. Por exemplo, os modelos multimodais de código aberto de última geração, como o LLaVA Liu et al. (2023c) e o InstructBLIP Dai et al. (2023), dependem do modelo CLIP congelado como codificador visual.

IA de agente: explorando os limites da interação multimodal-4
Figura 6: Mostramos o paradigma atual para a criação de inteligências de IA multimodais combinando grandes modelos de linguagem (LLMs) com grandes modelos visuais (LVMs). Em geral, esses modelos recebem informações visuais ou linguísticas e usam modelos visuais e linguísticos pré-treinados e congelados para aprender a conectar e interligar sub-redes menores de modalidades. Os exemplos incluem Flamingo Alayrac et al. (2022), BLIP-2 Li et al. (2023c), InstructBLIP Dai et al. (2023) e LLaVA Liu et al.

3.2 Definição de transformador de corpo inteligente

Além de usar modelos de macrolinguagem congelados e modelos de linguagem visual como inteligências de IA, também é possível usar uma única inteligência, o modelo Transformer, que combina modelos de linguagem visual e de linguagem visual. Token e o token linguístico como entradas, semelhante a Gato Reed et al. (2022). Além do visual e do linguístico, adicionamos um terceiro tipo genérico de entrada, que denotamos comocorpo inteligente Token: conceitualmente, um Token de corpo inteligente é usado para reservar um subespaço específico para comportamentos de corpo inteligente no espaço de entrada e saída de um modelo. Para robôs ou jogos, isso pode ser representado como o espaço de ação de entrada do controlador. O Token de Corpo Inteligente também pode ser usado ao treinar um corpo inteligente para usar uma ferramenta específica, como um modelo de geração ou edição de imagens, ou para outras chamadas de API, conforme mostrado na Figura 7, onde podemos combinar o Token de Corpo Inteligente com o Token Visual e Linguístico para gerar uma interface unificada para treinamento de IA de corpo inteligente multimodal. O uso do Intelligent Body Transformer tem várias vantagens em relação ao uso de um modelo de linguagem grande e proprietário como um corpo inteligente. Primeiro, o modelo pode ser facilmente personalizado para tarefas muito específicas de corpos inteligentes que podem ser difíceis de representar em linguagem natural (por exemplo, entradas do controlador ou outras ações específicas). Assim, as inteligências podem aprender com as interações ambientais e os dados específicos do domínio para melhorar o desempenho. Em segundo lugar, ao acessar as probabilidades do Token de um corpo inteligente, pode ser mais fácil entender por que um modelo toma ou não toma uma determinada ação. Terceiro, determinados domínios (por exemplo, saúde e direito) têm requisitos rigorosos de privacidade de dados. Por fim, um Intelligent Body Transformer relativamente pequeno pode ser muito mais barato do que um modelo de linguagem proprietário maior.

IA de agente: explorando os limites da interação multimodal-5
Figura 7: Modelo de transformador multimodal unificado para a inteligência. Em vez de conectar submódulos congelados e usar modelos básicos existentes como blocos de construção, propomos um paradigma de treinamento unificado de ponta a ponta para sistemas corporais inteligentes. Ainda podemos inicializar submódulos usando o grande modelo de linguagem e o grande modelo de visão na Figura 6, mas também podemos usar Tokens SmartBody, que são tokens especializados usados para treinar modelos para executar comportamentos SmartBody em domínios específicos (por exemplo, robótica). Para obter mais detalhes sobre Tokens SmartBody, consulte a Seção 3.2.

3.3 Criação de um transformador

Conforme mostrado na Figura 5 acima, podemos usar o novo Paradigma do Corpo Inteligente com Corpos Inteligentes guiados por Modelos de Linguagem Grande e Modelos de Linguagem Visual, e usar os dados gerados pelo modelo de base grande para treinar o modelo de Transformação do Corpo Inteligente para aprender a realizar objetivos específicos. No processo, os modelos de corpos inteligentes são treinados para serem adaptados especificamente para tarefas e domínios específicos. Essa abordagem permite que você aproveite os recursos e o conhecimento aprendidos com modelos de base pré-existentes. A seguir, apresentamos uma visão geral simplificada do processo em duas etapas:

Definir metas dentro do domínio.

Para treinar um Intelligent Body Transformer, o objetivo e o espaço de ação do Intelligent Body em cada ambiente específico precisam ser explicitamente definidos. Além disso, quaisquer regras ou procedimentos automatizados que possam ser usados para reconhecer a conclusão bem-sucedida de uma tarefa podem aumentar significativamente a quantidade de dados disponíveis para treinamento. Caso contrário, serão necessários dados gerados pelo modelo básico ou dados anotados manualmente para treinar o modelo. Depois que os dados forem coletados e o desempenho das inteligências puder ser avaliado, o processo de aprimoramento contínuo poderá ser iniciado.

Melhoria contínua.

O monitoramento contínuo do desempenho do modelo e a coleta de feedback são etapas fundamentais do processo. O feedback deve ser usado para aperfeiçoamentos e atualizações adicionais. Também é fundamental garantir que o modelo não perpetue resultados tendenciosos ou antiéticos. Isso requer o exame minucioso dos dados de treinamento, a verificação regular da parcialidade do resultado e, se necessário, o treinamento do modelo para identificar e evitar a parcialidade. Quando o modelo atingir um desempenho satisfatório, ele poderá ser implantado no aplicativo pretendido. O monitoramento contínuo continua sendo essencial para garantir que o modelo tenha o desempenho esperado e para facilitar os ajustes necessários. Consulte a Seção 8 para obter mais detalhes sobre esse processo, fontes de dados de treinamento e mais detalhes sobre o aprendizado contínuo de IA para inteligências.

4 Aprendizado de IA do corpo inteligente

4.1 Estratégias e mecanismos

As estratégias para IA interativa em diferentes domínios estendem o paradigma do uso de inteligências treinadas que buscam ativamente coletar feedback do usuário, informações sobre ações, conhecimento útil para geração e interação para invocar grandes modelos de base. Às vezes, não há necessidade de treinar novamente o modelo de linguagem grande/modelo de linguagem visual, e melhoramos o desempenho das inteligências fornecendo a elas dicas contextuais aprimoradas no momento do teste. Por outro lado, isso sempre envolve a modelagem de interações de conhecimento/raciocínio/senso comum/raciocínio por meio de uma combinação de sistemas ternários - um sistema executa a recuperação de conhecimento a partir de consultas de vários modelos, o segundo executa a geração de interação a partir de inteligências relevantes e o último treina um novo treinamento ou pré-treinamento autossupervisionado rico em informações de forma aprimorada, incluindo aprendizado por reforço ou aprendizado por imitação.

4.1.1 Reforço da aprendizagem (RL)

Há um longo histórico de uso da aprendizagem por reforço (RL) para treinar inteligências interativas que exibem comportamento inteligente. O aprendizado por reforço é um método para aprender a relação ideal entre estados e ações com base nas recompensas (ou punições) recebidas por suas ações. O aprendizado por reforço é uma estrutura altamente escalonável que tem sido aplicada a uma ampla gama de aplicações, incluindo a robótica; no entanto, ele normalmente enfrenta vários problemas de liderança, e os modelos de linguagem grande/modelos de linguagem visual mostraram seu potencial para atenuar ou superar algumas dessas dificuldades:

Projeto de recompensaA eficiência do aprendizado de estratégia depende muito do design da função de recompensa. O projeto de uma função de recompensa requer não apenas a compreensão do algoritmo de aprendizagem por reforço, mas também um conhecimento profundo da natureza da tarefa e, portanto, geralmente requer o projeto da função com base na experiência de especialistas. Vários estudos exploraram o uso de modelos de linguagem grandes/modelos de linguagem visual para projetar funções de recompensa Yu et al. (2023a); Katara et al. (2023); Ma et al.
Coleta de dados e eficiência Devido à sua natureza exploratória, o aprendizado de estratégia baseado no aprendizado por reforço requer grandes quantidades de dados Padalkar et al. (2023). A necessidade de grandes quantidades de dados torna-se particularmente evidente quando a estratégia envolve o gerenciamento de sequências longas ou a integração de operações complexas. Isso ocorre porque esses cenários exigem uma tomada de decisão com mais nuances e aprendizado em uma variedade maior de situações. Em estudos recentes, foram feitos esforços para aprimorar a geração de dados para apoiar o aprendizado de estratégias Kumar et al. (2023); Du et al. Além disso, em alguns estudos, esses modelos foram integrados a funções de recompensa para melhorar o aprendizado de estratégias Sontakke et al. (2023). Paralelamente a esses desenvolvimentos, outro estudo se concentrou em obter eficiência de parâmetros no processo de aprendizagem usando modelos de linguagem visual Tang et al. (2023); Li et al. (2023d) e um modelo de linguagem grande Shi et al. (2023).
passo longitudinal Com relação à eficiência dos dados, o aprendizado por reforço torna-se mais desafiador à medida que o comprimento das sequências de ações aumenta. Isso se deve à relação pouco clara entre ações e recompensas (conhecida como problema de alocação de crédito), bem como ao aumento do número de estados a serem explorados, o que exige uma quantidade significativa de tempo e dados. Uma abordagem típica para tarefas longas e complexas é decompô-las em uma série de submetas e aplicar estratégias pré-treinadas para resolver cada submeta (por exemplo, Takamatsu et al. (2022)). Essa ideia pertence à estrutura de planejamento de tarefas e movimentos (TAMP) de Garrett et al. (2021). O planejamento de tarefas e movimentos consiste em dois componentes principais: planejamento de tarefas, que envolve a identificação de sequências de operações de alto nível, e planejamento de movimentos, que envolve encontrar trajetórias fisicamente consistentes e sem colisões para atingir os objetivos do plano de tarefas. Os modelos de linguagem de grande porte são adequados para o planejamento de tarefas e movimentos, e pesquisas recentes geralmente adotam a abordagem de que o planejamento de tarefas de alto nível é realizado usando modelos de linguagem de grande porte, enquanto o controle de baixo nível é abordado por estratégias baseadas em aprendizagem por reforço Xu et al. (2023); Sun et al. (2023a); Li et al. (2023b); Parakh et al. Os recursos avançados dos modelos de linguagem de grande porte permitem que eles decomponham eficientemente instruções abstratas em submetas Wake et al. (2023c), contribuindo assim para melhorar a compreensão da linguagem em sistemas robóticos.

4.1.2 Aprendizagem por imitação (IL)

Enquanto a aprendizagem por reforço visa a treinar estratégias baseadas na exploração de comportamentos e na maximização das recompensas da interação com o ambiente, a aprendizagem por imitação (IL) visa a usar dados de especialistas para imitar os comportamentos de inteligências ou especialistas experientes. Por exemplo, uma das principais estruturas para a aprendizagem baseada em imitação na robótica é a clonagem comportamental (BC). A clonagem comportamental é um método de treinamento de um robô para imitar as ações de um especialista por meio de cópia direta. Nessa abordagem, as ações de um especialista na execução de uma tarefa específica são registradas e o robô é treinado para replicar essas ações em situações semelhantes. Abordagens recentes baseadas em clonagem comportamental geralmente combinam técnicas do modelo de linguagem grande/modelo de linguagem visual, resultando em modelos mais avançados de ponta a ponta. Por exemplo, Brohan et al. apresentam o RT-1 Brohan et al. (2022) e o RT-2 Brohan et al. (2023), modelos baseados em Transformer que recebem uma série de imagens e linguagem como entrada e sequências de saída de ações de base e braço. Esses modelos apresentam alto desempenho de generalização por terem sido treinados em uma grande quantidade de dados de treinamento.

4.1.3 RGB tradicional

Aprender o comportamento inteligente do corpo usando a entrada de imagens tem sido de interesse há muitos anos Mnih et al. (2015). O desafio inerente ao uso de entrada RGB é a catástrofe da dimensionalidade. Para resolver esse problema, os pesquisadores usaram mais dados Jang et al. (2022); Ha et al. (2023) ou introduziram um viés indutivo no design do modelo para melhorar a eficiência da amostra. Em particular, os autores integram estruturas 3D na arquitetura do modelo usado para manipulação Zeng et al. (2021); Shridhar et al. (2023); Goyal et al. (2023); James e Davison (2022). Para a navegação de robôs, os autores Chaplot et al. (2020a, b) utilizam mapas como representação. Os mapas podem ser aprendidos por redes neurais que agregam todas as entradas RGB anteriores, bem como por métodos de reconstrução 3D, como campos de radiação neural Rosinol et al. (2022).

Para obter mais dados, os pesquisadores usaram simuladores gráficos para sintetizar dados sintéticos Mu et al. (2021); Gong et al. (2023b) e tentaram fechar a lacuna sim2real Tobin et al. (2017); Sadeghi e Levine (2016); Peng et al. (2018). Recentemente, foram feitos esforços conjuntos para curar conjuntos de dados em grande escala com o objetivo de resolver o problema da escassez de dados Padalkar et al. (2023); Brohan et al. Por outro lado, as técnicas de aprimoramento de dados também foram amplamente investigadas a fim de aumentar a complexidade da amostra Zeng et al. (2021); Rao et al. (2020); Haarnoja et al. (2023); Lifshitz et al.

4.1.4 Aprendizado do contexto

A aprendizagem contextual demonstrou ser um método eficaz para resolver tarefas de processamento de linguagem natural usando grandes modelos de linguagem como o GPT-3 Brown et al. (2020); Min et al. (2022). Ao fornecer exemplos de tarefas no contexto dos prompts do modelo de linguagem grande, pode-se ver que os prompts com menos amostras são uma maneira eficaz de contextualizar a saída do modelo em uma variedade de tarefas no processamento de linguagem natural. Fatores como a variedade de exemplos e a qualidade dos exemplos apresentados no contexto podem melhorar a qualidade da saída do modelo An et al. (2023); Dong et al. (2022). No contexto de modelos de base multimodal, quando apenas um pequeno número de exemplos é fornecido, modelos como Flamingo e BLIP-2 Alayrac et al. (2022); Li et al. (2023c) demonstraram ser eficazes em uma ampla variedade de tarefas de compreensão visual. A aprendizagem contextual de inteligências no ambiente pode ser aprimorada ainda mais com a integração de feedback específico do contexto quando determinadas ações são realizadas Gong et al. (2023a).

4.1.5 Otimização em sistemas corporais inteligentes

A otimização de sistemas de corpos inteligentes pode ser dividida em aspectos espaciais e temporais. A otimização espacial considera como os corpos inteligentes operam no espaço físico para realizar tarefas. Isso inclui a coordenação entre robôs, a alocação de recursos e a manutenção de um espaço organizado.

Para otimizar efetivamente os sistemas de IA de corpos inteligentes, especialmente aqueles em que um grande número de inteligências opera em paralelo, os trabalhos anteriores se concentraram no uso do aprendizado por reforço de alto volume Shacklett et al. (2023). Como os conjuntos de dados de interação de corpos multiinteligentes específicos de tarefas são raros, o aprendizado por reforço de autojogo permite que as equipes de corpos inteligentes melhorem com o tempo. No entanto, isso também pode levar a inteligências muito frágeis que só podem funcionar em jogos automáticos e não com seres humanos ou outras inteligências independentes, porque elas se ajustam demais ao paradigma de treinamento de jogos automáticos. Para resolver esse problema, podemos descobrir um conjunto de convenções diferentes, Cui et al. (2023); Sarkar et al. (2023) e treinar uma inteligência que entenda as várias convenções. O modelo básico pode ajudar ainda mais a estabelecer convenções com humanos ou outras inteligências independentes, permitindo assim uma coordenação suave com novas inteligências.

Por outro lado, a otimização temporal concentra-se em como as inteligências executam as tarefas ao longo do tempo. Isso inclui a programação de tarefas, o sequenciamento e a eficiência da linha do tempo. Por exemplo, a otimização da trajetória de um braço robótico é um exemplo de otimização eficiente do movimento entre tarefas sucessivas Zhou et al. (2023c). No nível de programação de tarefas, algoritmos como LLM-DP Dagan et al. (2023) e ReAct Abordagens como a de Yao et al. (2023a) tratam do planejamento eficaz de tarefas por meio da integração interativa de fatores ambientais.

4.2 Sistemas de agentes (níveis de amostragem zero e poucos)

4.2.1 Módulo do agente

Nossa exploração inicial do paradigma do agente envolveu o desenvolvimento de "módulos" de IA de agente para agentes multimodais interativos usando o Modelo de Linguagem Grande (LLM) ou o Modelo de Linguagem Visual (VLM). Nossos módulos iniciais de agente contribuem para o treinamento ou a aprendizagem contextual e têm um design minimalista destinado a demonstrar a capacidade de um agente de programar e coordenar com eficiência. Também exploramos técnicas iniciais de memória baseadas em dicas que ajudam a melhorar o planejamento e informam futuros métodos de ação no campo. Para ilustrar isso, nossa infraestrutura "MindAgent" consiste em cinco módulos principais: 1) Consciência do ambiente com planejamento de tarefas, 2) Aprendizagem do agente, 3) Memória, 4) Previsão de ações genéricas do agente e 5) Cognição, conforme mostrado na Figura 5.

4.2.2 Infraestrutura do agente

A IA baseada em agentes é uma comunidade grande e em rápido crescimento nos setores de entretenimento, pesquisa e indústria. O desenvolvimento de modelos de base em grande escala melhorou significativamente o desempenho dos sistemas de IA de agentes. No entanto, a criação de agentes dessa forma é limitada pela quantidade crescente de trabalho e pelo custo geral necessário para criar conjuntos de dados de alta qualidade. Na Microsoft, a criação de uma infraestrutura de agentes de alta qualidade teve um impacto significativo na co-pilotagem de agentes multimodais por meio do uso de hardware avançado, diversas fontes de dados e bibliotecas de software robustas. Como a Microsoft continua a ampliar os limites da tecnologia de agentes, espera-se que a plataforma de agentes de IA continue a ser uma força dominante na inteligência multimodal nos próximos anos. No entanto, a interação do agente com a IA continua sendo um processo complexo que exige uma combinação de habilidades. Os recentes avanços no campo da modelagem de IA generativa em larga escala têm o potencial de reduzir significativamente o alto custo e o tempo exigidos atualmente para o conteúdo interativo, tanto para grandes estúdios quanto para proporcionar aos criadores de conteúdo independentes menores a capacidade de projetar experiências de alta qualidade além de suas capacidades atuais. Agentes multimodais internos Os sistemas atuais de HCI são amplamente baseados em regras. Eles têm comportamentos inteligentes que respondem às ações humanas/do usuário e têm algum grau de conhecimento da rede. No entanto, essas interações geralmente são limitadas pelo custo do desenvolvimento de software, o que impede a implementação de comportamentos específicos no sistema. Além disso, os modelos atuais não foram projetados para ajudar os usuários a atingir suas metas em situações em que não conseguem executar uma tarefa específica. Portanto, é necessária uma infraestrutura de sistema de IA de agente para analisar o comportamento do usuário e fornecer o suporte adequado quando necessário.

4.3 Modelos básicos baseados em agentes (níveis de pré-treinamento e ajuste fino)

O uso de modelos básicos pré-treinados oferece vantagens significativas em termos de ampla aplicabilidade em uma variedade de casos de uso. A integração desses modelos permite o desenvolvimento de soluções personalizadas para uma ampla gama de aplicativos, evitando assim a necessidade de preparar grandes conjuntos de dados rotulados para cada tarefa específica.

Um exemplo notável no campo da navegação é o sistema LM-Nav de Shah et al. (2023a), que combina GPT-3 e CLIP em uma nova abordagem. Ele utiliza efetivamente pontos de referência textuais gerados por um modelo de linguagem, ancorando-os em imagens adquiridas pelo robô para navegação. Essa abordagem demonstra a fusão perfeita de dados textuais e visuais, aprimorando significativamente a capacidade de navegação do robô e mantendo uma ampla aplicabilidade.

Na manipulação de robôs, vários estudos propuseram o uso de LLMs prontos para uso (por exemplo, ChatGPT) juntamente com um detector de objetos de vocabulário aberto. A combinação de LLMs e detectores de objetos de alto nível (por exemplo, Detic Zhou et al. (2022)) pode ajudar a compreender os comandos humanos enquanto situa as informações textuais dentro das informações da cena Parakh et al. (2023 ). Além disso, avanços recentes demonstram o potencial do uso da engenharia de dicas em conjunto com modelos multimodais avançados, como o GPT-4V(ision) Wake et al. (2023b). Essa técnica abre caminho para o planejamento de tarefas multimodais, destacando a versatilidade e a adaptabilidade de modelos pré-treinados em uma variedade de ambientes.

5 Classificação da IA do agente

5.1 Domínio do agente genérico

As ações baseadas em computador e os agentes generalizados (GA) são úteis para muitas tarefas. Avanços recentes no campo dos modelos de base em grande escala e da IA interativa possibilitaram novos recursos para os AGs. No entanto, para que o GA seja realmente valioso para seus usuários, ele deve ser fácil de interagir e generalizar para uma ampla gama de ambientes e modalidades. Ampliamos os capítulos principais sobre IA baseada em agentes na Seção 6 com alta qualidade, especialmente em áreas relacionadas a esses tópicos em geral:

O Multimodal Agent AI (MMA) é um fórum futuro ^1^^^1^ URL atual: https://multimodalagentai.github.io/ para que nossas comunidades de pesquisa e do setor interajam entre si e com a comunidade mais ampla de pesquisa e tecnologia de Agent AI. Avanços recentes no campo de modelos fundamentais em grande escala e IA interativa possibilitaram novos recursos para agentes de uso geral (GA), como a previsão do comportamento do usuário e o planejamento de tarefas em ambientes restritos (por exemplo, MindAgent Gong et al. (2023a), compreensão de vídeo multimodal de granulação fina Luo et al. (2022), robótica Ahn et al. (2022b); Brohan et al. (2023)), ou fornecer aos usuários companheiros de bate-papo que contenham feedback de conhecimento (por exemplo, suporte ao cliente baseado na Web para sistemas de saúde Peng et al. (2023)). Informações mais detalhadas sobre trabalhos representativos e recentes são mostradas abaixo. Esperamos discutir nossa visão para o futuro do MAA e inspirar futuros pesquisadores a trabalhar na área. Este documento e nosso fórum abrangem os seguintes tópicos principais, mas não se limitam a eles:

Temas principais: IA de agente multimodal, IA de agente genérico
Tema secundário: Agentes incorporados, agentes de movimento, agentes baseados em linguagem, agentes visuais e linguísticos, agentes de conhecimento e raciocínio, agentes para jogos, robótica, saúde, etc.
Tema estendido: Navegação visual, ambientes simulados, rearranjo, modelos baseados em agentes, VR/AR/MR, visão e linguagem incorporadas.

Em seguida, listamos as seguintes categorias representativas de agentes:

5.2 Agente possessivo

Nosso cérebro biológico existe em nossos corpos, e nossos corpos se movem em um mundo em constante mudança. O objetivo da IA incorporada é criar agentes, como robôs, que aprendam a resolver de forma criativa tarefas desafiadoras que exijam interação com o ambiente. Embora esse seja um grande desafio, os grandes avanços na aprendizagem profunda e a crescente disponibilidade de grandes conjuntos de dados, como o ImageNet, possibilitaram um desempenho sobre-humano em uma ampla gama de tarefas de IA que antes eram consideradas difíceis de lidar. A visão computacional, o reconhecimento de fala e o processamento de linguagem natural passaram por revoluções transformadoras em tarefas passivas de entrada e saída, como tradução de idiomas e categorização de imagens, enquanto a aprendizagem por reforço alcançou um desempenho de classe mundial em tarefas interativas, como jogos. Esses avanços proporcionam um poderoso impulso para a IA incorporada, permitindo que cada vez mais usuários avancem rapidamente para agentes inteligentes que possam interagir com as máquinas.

5.2.1 Agente de ação

Os agentes de ação são agentes que precisam executar ações físicas em um ambiente físico simulado ou no mundo real; em particular, eles precisam estar ativamente envolvidos em atividades com o ambiente. Em termos gerais, classificamos os agentes de ação em duas categorias diferentes com base em suas áreas de aplicação: IA de jogos e robótica.

Na IA de jogos, o agente interage com o ambiente do jogo e com outras entidades independentes. Nessas configurações, a linguagem natural permite uma comunicação fluida entre o Agente e os humanos. Dependendo do jogo, pode haver uma tarefa específica a ser concluída que forneça um sinal de recompensa real. Por exemplo, em um jogo de diplomacia competitiva, o treinamento de um modelo de linguagem usando dados de diálogo humano e estratégias de ação com aprendizagem por reforço pode permitir jogos de nível humano Meta Fundamental AI Research Diplomacy Team et al. (2022) Meta Fundamental AI Research (FAIR ) Equipe de Diplomacia, Bakhtin, Brown, Dinan, Farina, Flaherty, Fried, Goff, Gray, Hu, et al. (FAIR).

Em alguns casos, os agentes agirão como habitantes comuns de uma cidade Park et al. (2023a) sem tentar otimizar para objetivos específicos. Os modelos básicos são úteis nessas configurações porque podem simular interações mais naturais imitando o comportamento humano. Quando ampliados com memória externa, eles produzem agentes convincentes que podem manter conversas, programar atividades diárias, criar relacionamentos e ter vidas virtuais.

5.2.2 Agente interativo

Os agentes interativos referem-se simplesmente a agentes que podem interagir com o mundo, o que é uma classe mais ampla de agentes do que os agentes de ação.fisioterapiaações, mas pode envolver a transmissão de informações para o usuário ou a modificação do ambiente. Por exemplo, um agente interativo incorporado poderia responder às perguntas de um usuário sobre um tópico por meio de um diálogo ou ajudar o usuário a analisar as informações existentes, semelhante a um chatbot. Ao ampliar os recursos do agente para incluir o compartilhamento de informações, o design e os algoritmos principais da IA do agente podem ser adaptados de forma eficaz a uma série de aplicações, como diagnósticos Lee et al. (2023) e agente de recuperação de conhecimento Peng et al.

5.3 Agente de simulação e ambiente

Uma maneira eficaz de um agente de IA aprender a agir em um ambiente é por meio da experiência de repetidas tentativas de interação com o ambiente. Uma abordagem representativa é a aprendizagem por reforço (RL), que requer um grande número de falhas para treinar o agente. Embora existam métodos que usam agentes físicos, Kalashnikov et al. (2018), o uso de agentes físicos é demorado e caro. Além disso, quando as falhas em ambientes do mundo real podem ser perigosas (por exemplo, direção autônoma, veículos subaquáticos), o treinamento em ambientes físicos geralmente não é viável. Portanto, o uso de simuladores para aprender estratégias é uma abordagem comum.

Várias plataformas de simulação foram propostas para a pesquisa de IA incorporada, desde a navegação Tsoi et al. (2022); Deitke et al. (2020); Kolve et al. (2017) até a manipulação de objetos Wang et al. (2023d); Mees et al. (2022); Yang et al. (2023a) (2023a); Ehsani et al. (2021). Um exemplo é o Habitat Savva et al. (2019); Szot et al. (2021), que fornece um ambiente interno em 3D no qual agentes humanos e robóticos podem realizar uma variedade de tarefas, como navegação, seguir comandos e responder a perguntas. Outra plataforma de simulação representativa é a VirtualHome Puig et al. (2018), que oferece suporte a avatares humanos para manipular objetos em um ambiente interno em 3D. No domínio dos jogos, Carroll et al. apresentaram o "Overcooked-AI", um ambiente de referência projetado para estudar tarefas cooperativas entre humanos e IA Carroll et al. (2019). Da mesma forma, alguns trabalhos visam incorporar a intervenção humana real além do foco na interação agente-ambiente Puig et al. (2023); Li et al. (2021a); Srivastava et al. (2022). Esses simuladores facilitam o aprendizado de políticas em ambientes do mundo real envolvendo interações entre agentes e robôs, bem como o aprendizado de políticas baseado em IL usando ações de demonstração humana.

Em alguns casos, o processo de aprendizagem de estratégias pode exigir a integração de uma funcionalidade especializada no simulador. Por exemplo, ao aprender estratégias baseadas em imagens, a renderização realista geralmente é necessária para facilitar a adaptação a ambientes reais Mittal et al. (2023); Zhong et al. (2023). O uso de um mecanismo de renderização realista é eficaz para gerar imagens que refletem uma variedade de condições (por exemplo, ambientes com iluminação). Além disso, os simuladores que empregam mecanismos de física são necessários para simular interações físicas com objetos Liu e Negrut (2021). A integração de mecanismos de física em simulações tem se mostrado útil na aquisição de habilidades aplicáveis a cenários realistas Saito et al. (2023).

5.4 Agente gerador

Os recentes avanços no campo dos modelos de IA generativa em larga escala têm o potencial de reduzir significativamente o alto custo e o tempo exigidos atualmente para o conteúdo interativo, tanto para grandes estúdios de jogos quanto para estúdios independentes menores, a fim de criar experiências de alta qualidade além de suas capacidades atuais. Além disso, a incorporação de modelos de IA em grande escala em ambientes sandbox permitirá que os usuários criem suas próprias experiências e expressem sua criatividade de maneiras que não são possíveis atualmente.

O objetivo desse agente não é apenas adicionar conteúdo 3D interativo à cena:

Adicione regras arbitrárias de comportamento e interação aos objetos, permitindo que os usuários criem suas próprias regras de RV com o mínimo de solicitação.
Toda a geometria do nível é gerada a partir de esboços em papel usando modelos GPT4-v multimodais, bem como outras cadeias de modelos que envolvem modelos visuais de IA.
Re-texturização do conteúdo de uma cena usando um modelo de difusão
Crie shaders e efeitos visuais personalizados com instruções simples do usuário

Uma possível aplicação de curto prazo são as ferramentas de storyboarding/prototipagem de criação de RV que permitem que um único usuário crie um esboço (mas totalmente funcional) de uma experiência/jogo em uma ordem de magnitude mais rápida do que é possível atualmente. Esse protótipo poderia então ser ampliado e aprimorado com o uso dessas ferramentas.

5.4.1 Agente de AR/VR/Realidade mista

Atualmente, as configurações de AR/VR/Realidade mista (coletivamente XR) exigem que artistas e animadores qualificados criem personagens, ambientes e objetos para simular interações no mundo virtual. Esse é um processo dispendioso que envolve arte conceitual, modelagem 3D, texturização, ligação e animação. O XR Agent pode ajudar nesse processo, facilitando as interações entre os criadores e criando ferramentas que ajudam a construir o ambiente virtual final.

Nossos primeiros experimentos mostraram que os modelos GPT podem ser usados (sem nenhum ajuste fino adicional) em um mecanismo de amostra menos no mecanismo Unity para invocar métodos específicos do mecanismo, usando chamadas de API para baixar modelos 3D da Internet e colocá-los na cena, e atribuindo-lhes árvores de estado para comportamento e animação Huang et al. (2023a). Esse comportamento pode ter surgido devido à presença de código semelhante em repositórios de jogos de código aberto usando o Unity. Como resultado, o modelo GPT é capaz de criar cenas visuais ricas carregando muitos objetos na cena com base em solicitações simples do usuário.

O objetivo dessa classe de agentes é criar uma plataforma e um conjunto de ferramentas que forneçam uma interface eficiente entre grandes modelos de IA (a família de modelos GPT, bem como modelos de imagens difusas) e mecanismos de renderização. Aqui, exploramos dois caminhos principais:

Integre modelos grandes às várias ferramentas de editor na infraestrutura do agente para acelerar drasticamente o desenvolvimento.
Controle o mecanismo de renderização a partir da experiência do usuário, gerando código que segue as instruções do usuário e compila em tempo de execução, permitindo que os usuários editem a RV/simulação com a qual estão interagindo da maneira que desejarem e até mesmo introduzindo novos mecanismos de agente.

A introdução de um copiloto de IA focado em configurações de XR é útil para os criadores de XR, que podem usar o copiloto para tarefas tediosas, como fornecer ativos simples ou escrever amostras de código, permitindo que os criadores se concentrem em sua visão criativa e iterem as ideias rapidamente.

Além disso, os agentes podem ajudar os usuários a modificar seus ambientes de forma interativa, adicionando novos recursos, alterando a dinâmica do ambiente ou criando novas configurações. Essa forma de geração dinâmica de tempo de execução também pode ser especificada pelo criador para que a experiência do usuário pareça nova e evolua com o tempo.

5.5 Inteligências de conhecimento e raciocínio lógico

A capacidade de raciocinar e aplicar o conhecimento é uma característica definidora da cognição humana e é particularmente evidente em tarefas complexas, como dedução lógica e compreensão de teorias da mente ^2^^2^https://plato.stanford.edu/entries/cognitive-science. O raciocínio sobre o conhecimento garante que as respostas e o comportamento da IA sejam consistentes com fatos conhecidos e princípios lógicos princípios lógicos. Essa coerência é um mecanismo fundamental para manter a confiança e a confiabilidade nos sistemas de IA, especialmente em aplicativos essenciais, como diagnóstico médico ou análise jurídica. Aqui, apresentamos uma série de inteligências que combinam a interação entre conhecimento e raciocínio e que foram projetadas para abordar aspectos específicos da inteligência e do raciocínio.

5.5.1 Inteligência de conhecimento

As inteligências do conhecimento raciocinam sobre seus sistemas de conhecimento adquiridos de duas maneiras: implícita e explicitamente. O conhecimento implícito é normalmente o conhecimento encapsulado por grandes modelos de linguagem, como a família GPT Brown et al. (2020); OpenAI (2023), após serem treinados em grandes quantidades de dados textuais. Esses modelos podem gerar respostas que dão a impressão de compreensão porque utilizam padrões e informações aprendidos implicitamente durante o treinamento. Por outro lado, o conhecimento explícito é estruturado e pode ser consultado diretamente, como as informações encontradas em bases de conhecimento ou bancos de dados, e tradicionalmente aumenta o raciocínio da IA ao fazer referência a recursos externos verificáveis.

Apesar dos avanços nos modelos de linguagem, seu conhecimento implícito é estático e fica desatualizado à medida que o mundo evolui Lewis et al. (2020); Peng et al. (2023). Essa limitação torna necessária a integração de fontes de conhecimento explícito continuamente atualizadas para garantir que os sistemas de IA possam fornecer respostas precisas e atualizadas. A integração do conhecimento implícito e explícito equipa as inteligências de IA com uma compreensão mais matizada e a capacidade de aplicar o conhecimento no contexto como a inteligência humana Gao et al. (2022). Essa integração é fundamental para a criação de inteligências de IA centradas no conhecimento que não apenas tenham informações, mas possam entender, interpretar e usar essas informações, preenchendo a lacuna entre a aprendizagem extensiva e o conhecimento profundo (Marcus e Davis, 2019; Gao et al., 2020). Essas inteligências têm o objetivo de raciocinar de maneira flexível e com informações dinâmicas sobre o mundo, aumentando assim sua robustez e adaptabilidade (Marcus, 2020).

5.5.2 Inteligências lógicas

Normalmente, as inteligências lógicas são componentes de um sistema projetado para aplicar o raciocínio lógico para processar dados ou resolver tarefas específicas de raciocínio lógico ou argumentação lógica. No contexto de um modelo de base grande, como o GPT-4, as inteligências lógicas referem-se a componentes especializados ou submódulos projetados para lidar com tarefas de raciocínio lógico. Essas tarefas normalmente envolvem a compreensão e a manipulação de conceitos abstratos, a inferência de conclusões a partir de determinadas premissas ou a solução de problemas que exigem uma abordagem estruturada e lógica. Em termos gerais, os modelos básicos, como o GPT-4, são treinados em grandes corpora de dados textuais e aprendem a executar uma variedade de tarefas, inclusive aquelas que exigem alguma forma de raciocínio lógico. Dessa forma, seus recursos de raciocínio lógico são integrados à arquitetura geral e, normalmente, eles não têm "inteligências lógicas" separadas e isoladas. Embora o GPT-4 e modelos semelhantes possam executar tarefas que envolvam lógica, sua abordagem é fundamentalmente diferente da forma como os seres humanos ou os sistemas tradicionais baseados em lógica operam. Eles não seguem regras lógicas formais nem têm uma compreensão explícita da lógica; em vez disso, geram respostas com base em padrões aprendidos com os dados de treinamento. Como resultado, seu desempenho em tarefas lógicas pode ser impressionante, mas também pode ser inconsistente ou limitado pela natureza dos dados de treinamento e pelas limitações inerentes ao design do modelo. Um exemplo de incorporação de um submódulo lógico separado na arquitetura é (Wang et al., 2023e), que modifica o processo de incorporação de tokens usado pelo LLM durante o pré-treinamento, analisando o texto em segmentos lógicos e modelando explicitamente a hierarquia lógica na incorporação de tokens.

5.5.3 Intelligentsia para raciocínio emocional

A compreensão emocional e a empatia são habilidades importantes que as inteligências precisam ter em muitas interações entre humanos e computadores. Para ilustrar esse ponto, uma meta importante na criação de inteligências de conversação envolventes é que as inteligências demonstrem mais emoção e empatia quando agem, minimizando ao mesmo tempo a produção de resultados socialmente inadequados ou ofensivos. Para avançar nessa meta para as inteligências de conversação, publicamos uma revisão de neuroimagens com empatia (NICE) de Chen et al. (2021), que contém quase 2 milhões de imagens, juntamente com os comentários correspondentes gerados manualmente e um conjunto de anotações de sentimentos humanos. Também fornecemos um novo modelo pré-treinado para modelar a geração de sentimentos para comentários de imagens (MÁGICA) Chen et al. (2021) - tem como objetivo gerar comentários sobre imagens condicionados a representações linguísticas que capturam o estilo e a emoção e ajudam a gerar comentários mais empáticos, emotivos, envolventes e socialmente apropriados. Nossos experimentos mostram que a abordagem é eficaz no treinamento de inteligências de comentários de imagens mais humanas e envolventes. O desenvolvimento de inteligências conscientes da empatia é uma direção promissora para as inteligências interativas, e é importante criar inteligências com compreensão emocional para uma ampla gama de grupos e populações, especialmente considerando que muitos modelos de linguagem atuais apresentam vieses em suas habilidades de compreensão emocional e raciocínio empático Mao et al. (2022); Wake et al. (2023d).

5.5.4 Inteligências neuro-simbólicas

As inteligências neurosimbólicas operam em sistemas híbridos de neurônios e símbolos d'Avila Garcez e Lamb (2020). Resolver o problema das representações de linguagem natural é uma tarefa desafiadora porque requer a captura explícita das informações estruturais simbólicas discretas implícitas na entrada. No entanto, a maioria dos modelos de sequência neural de uso geral não captura explicitamente essas informações estruturais, limitando assim seu desempenho nessas tarefas. O trabalho de Chen et al. (2020) propõe um novo modelo de codificador-decodificador baseado em inteligências representacionais neurais estruturadas. O codificador do TP-N2F usa a "vinculação" da TPR para codificar estruturas simbólicas de linguagem natural no espaço vetorial, e o decodificador usa a "desvinculação" da TPR para gerar programas sequenciais representados por tuplas relacionais no espaço simbólico, em que cada tupla contém uma relação (ou operação) e alguns parâmetros.

Os modelos de linguagem visual (VL) que seguem comandos, como o GPT-4, oferecem uma interface flexível que suporta uma ampla gama de tarefas multimodais em um modo de amostra zero. No entanto, as interfaces que são executadas em imagens completas não permitem diretamente que o usuário "aponte" e acesse regiões específicas dentro da imagem. Esse recurso é importante não apenas para dar suporte a benchmarks de VL baseados em referência, mas também para aplicativos do mundo real que exigem raciocínio preciso na imagem. Em (Park et al., 2023b), criamos um modelo de senso comum visual local que permite aos usuários especificar (várias) regiões como entrada. Treinamos nosso modelo por meio da amostragem do conhecimento local de senso comum de um Modelo de Linguagem Ampla (LLM): especificamente, solicitamos ao LLM que coletasse conhecimento de senso comum com base em descrições literais globais de imagens e em um conjunto de descrições literais locais de regiões geradas automaticamente pelo modelo VL. O processo é dimensionável e totalmente automatizado, pois não há necessidade de pares de imagens e textos alinhados ou escritos manualmente. Ao treinar individualmente um modelo de revisão de exemplos selecionados de alta qualidade, descobrimos que o treinamento em um corpus local de conhecimento geral estendido somente a partir de imagens pode refinar com êxito os modelos de VL existentes para oferecer suporte a interfaces que usam citações como entrada. Os resultados empíricos em uma configuração de amostra zero e a avaliação manual mostram que nossa abordagem de refinamento produz modelos de LV de inferência mais precisos em comparação com uma linha de base de expressões referenciais geradas por aprovação.

5.6 Modelos de linguagem grandes e inteligências de modelagem de linguagem visual

Muitos trabalhos utilizaram modelos de linguagem grandes como inteligências para executar o planejamento de tarefas (Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a) e exploraram o conhecimento de domínio em escala da Internet e os recursos de planejamento de amostra zero de modelos de linguagem grandes para executar inteligências como planejamento e inferência e inferência. Pesquisas recentes em robótica também utilizaram grandes modelos de linguagem para realizar o planejamento de tarefas (Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022) decompondo comandos de linguagem natural em uma série de subtarefas, seja na forma de linguagem natural ou código Python, que são então executados usando controladores de baixo nível. Além disso, Huang et al. (2022b), Liang et al. (2022) e Wang et al. (2023a) também integram feedback ambiental para melhorar o desempenho da tarefa. Há também muitos trabalhos que demonstram que modelos de linguagem grandes e generalizados, alinhados visualmente e treinados em grandes dados de texto, imagem e vídeo, podem ser usados como base para a criação de inteligências multimodais que podem ser incorporadas e utilizadas em uma variedade de ambientes.

6 Tarefas de aplicativos de IA para corpos inteligentes

IA de agente: explorando os limites da interação multimodal-2
Figura 8: Simulação e geração de sentido de jogo da masmorra do Minecraft via GPT-4V para inteligências incorporadas para previsão de ação de jogo interativo do usuário e edição de interação.

6.1 Inteligência de jogos

O jogo oferece uma caixa de areia exclusiva para testar o comportamento das inteligências do modelo de linguagem ampla e do modelo de linguagem visual, ampliando os limites de sua capacidade de colaborar e tomar decisões. Em particular, descrevemos três domínios que destacam a capacidade das inteligências de interagir com jogadores humanos e outras inteligências e de realizar ações significativas em seu ambiente.

6.1.1 Comportamento do NPC

Nos sistemas de jogos modernos, o comportamento dos personagens que não são jogadores (NPCs) é amplamente determinado por scripts predefinidos escritos pelos desenvolvedores. Esses scripts contêm um conjunto de reações e interações com base em vários acionadores ou ações do jogador no ambiente do jogo. No entanto, essa natureza de script geralmente resulta em um comportamento previsível ou repetitivo do NPC que não evolui com base nas ações do jogador ou no ambiente dinâmico do jogo. Essa rigidez prejudica a experiência imersiva esperada em um ambiente de jogo dinâmico. Como resultado, há um interesse cada vez maior no uso de grandes modelos de linguagem para induzir a autonomia e a adaptabilidade nos comportamentos dos NPCs para tornar as interações mais sutis e envolventes. Os NPCs orientados por inteligência artificial podem aprender com o comportamento do jogador, adaptar-se a diferentes estratégias e proporcionar experiências de jogo mais desafiadoras e imprevisíveis. Os modelos de linguagem ampla (LLMs) podem fazer uma contribuição significativa para a evolução do comportamento dos NPCs nos jogos. Ao processar grandes quantidades de texto, os LLMs podem aprender padrões e gerar respostas mais variadas e semelhantes às humanas. Eles podem ser usados para criar sistemas de diálogo dinâmicos que tornam as interações com os NPCs mais envolventes e menos previsíveis. Além disso, os Big Language Models podem ser treinados com o feedback dos jogadores e dados do jogo para melhorar continuamente o comportamento dos NPCs e atender melhor às expectativas dos jogadores e à dinâmica do jogo.

6.1.2 Interação homem-máquina NPC

A interação entre o jogador humano e o NPC é um aspecto fundamental da experiência de jogo. Os modelos tradicionais de interação são, em grande parte, unidimensionais, com os NPCs respondendo à entrada do jogador de uma maneira predefinida. Essa limitação sufoca o potencial de interações mais naturais e ricas (semelhantes às interações entre humanos) no âmbito virtual. O surgimento das tecnologias Big Language Modelling e Visual Language Modelling promete mudar esse paradigma. Ao empregar essas tecnologias, os sistemas de jogos podem analisar e aprender o comportamento humano a fim de proporcionar interações mais semelhantes às humanas. Isso não só aumenta o realismo e o envolvimento dos jogos, mas também oferece uma plataforma para explorar e compreender as interações entre humanos e computadores em ambientes controlados, mas complexos.

IA de agente: explorando os limites da interação multimodal-3
Figura 9: O GPT-4V é eficaz na previsão dos próximos movimentos de alto nível quando recebe o "histórico de movimentos" e o "objetivo do jogo" na dica. Além disso, o GPT-4V reconhece com precisão que o jogador está segurando um tronco de madeira na mão e pode incorporar essa informação percebida em seus planos de ação futuros. Embora o GPT-4V pareça ser capaz de prever algumas ações de baixo nível (por exemplo, pressionar a tecla "E" para abrir uma mochila), os resultados do modelo são inerentemente inadequados para a previsão de ações primitivas de baixo nível (incluindo movimentos do mouse) e podem exigir módulos suplementares para o controle de ações de baixo nível.

6.1.3 Análise de jogos inteligentes baseados no corpo

Os jogos são parte integrante da vida cotidiana, atraindo cerca de metade da população mundial https://www.dfcint.com/global-video-game-audience-reaches-3-7-billion/. Além disso, ele tem um impacto positivo na saúde mental https://news.microsoft.com/source/features/work-life/mind-games-how-gaming-can-play-a-positive-role-in-mental- health/. No entanto, os sistemas de jogos contemporâneos são deficientes em sua interação com os jogadores humanos, pois o comportamento deles é, em grande parte, criado manualmente pelos desenvolvedores de jogos. Esses comportamentos pré-programados geralmente não são adaptáveis às necessidades do jogador. Portanto, são necessários novos sistemas de IA nos jogos que possam analisar o comportamento do jogador e oferecer o suporte adequado quando necessário. Os sistemas de interação inteligente têm o potencial de revolucionar a maneira como os jogadores interagem com os sistemas de jogos. As interações dos NPCs com os jogadores não são mais restritas a um conjunto limitado de regras criadas pelos desenvolvedores de jogos. Eles têm o potencial de se adaptar perfeitamente à experiência do jogador, fornecendo feedback oportuno para enriquecer a experiência de jogo e aprimorar a sinergia da interação humano-computador.

Os Big Language Models podem ser ferramentas poderosas para a análise de dados textuais no jogo, incluindo transcrições de bate-papo, feedback do jogador e conteúdo narrativo. Eles podem ajudar a identificar padrões no comportamento, nas preferências e nas interações dos jogadores, o que pode ser de grande valia para os desenvolvedores de jogos melhorarem a mecânica e as narrativas dos jogos. Além disso, os modelos de linguagem visual podem analisar grandes quantidades de dados de imagem e vídeo de sessões de jogos para ajudar a analisar as intenções e ações do usuário no mundo do jogo. Além disso, os modelos de linguagem grande e os modelos de linguagem visual podem facilitar o desenvolvimento de inteligências inteligentes no jogo que podem se comunicar com o jogador e com outras inteligências de maneira sofisticada e semelhante à humana, aprimorando assim a experiência geral do jogo. Além dos modelos de linguagem grandes e dos modelos de linguagem visual, os dados de entrada do usuário oferecem um caminho promissor para a criação de inteligências de jogos que modelam a percepção, o jogo e a compreensão do jogo imitando jogadores humanos. Combinando a interação e o feedback do jogador, a entrada de pixels e o planejamento e a compreensão da linguagem natural, os modelos corporais inteligentes podem ajudar a melhorar continuamente a dinâmica do jogo, fazendo com que os ambientes de jogo evoluam de forma mais centrada no jogador.

6.1.4 Síntese da cena do jogo

IA de agente: explorando os limites da interação multimodal-3
Figura 10: Previsão de vídeo com máscara em um vídeo não visto do Minecraft. Da esquerda para a direita: quadro original, quadro com máscara, quadro reconstruído e quadro reconstruído com patch.

A composição de cenas é uma parte importante da criação e do aprimoramento de ambientes de jogos imersivos. Ela envolve a geração automática ou semiautomática de cenas e ambientes tridimensionais (3D) no jogo. Esse processo inclui a geração de terreno, a colocação de objetos, a criação de iluminação realista e, às vezes, até sistemas climáticos dinâmicos.

Os jogos modernos geralmente apresentam vastos ambientes de mundo aberto. Projetar essas paisagens manualmente pode consumir muito tempo e recursos. A geração automatizada de terrenos (geralmente usando técnicas processuais ou orientadas por IA) pode produzir paisagens complexas e realistas sem muita intervenção humana. Os Big Language Models e os Visual Language Models podem aproveitar o conhecimento em escala da Internet para desenvolver regras para a criação de paisagens visualmente impressionantes e exclusivas e não repetitivas. Além disso, os Big Linguistic Models e os Visual Linguistic Models podem ser usados para garantir a consistência semântica e a variabilidade dos ativos gerados. A colocação de objetos como edifícios, vegetação e outros elementos na cena de forma realista e esteticamente agradável é fundamental para a imersão.

IA de agente: explorando o mundo da interação multimodal [Fei-Fei Li - Clássico de leitura obrigatória]-1
Figura 11: Previsão da próxima ação de baixo nível usando um modelo pré-treinado de pequenas inteligências em um cenário de jogo do Minecraft.

Os modelos de linguagem visual e os modelos de linguagem grande podem ajudar na colocação de objetos seguindo regras e estéticas predefinidas ou aprendidas, acelerando assim o processo de design de níveis. Os modelos de linguagem visual e os modelos de linguagem grande podem ser treinados para entender os princípios de design e estética para ajudar a gerar conteúdo processualmente. Eles podem ajudar a desenvolver regras ou diretrizes que os algoritmos processuais podem seguir para gerar objetos e cenas que sejam visualmente atraentes e apropriados ao contexto.

A iluminação realista e os efeitos atmosféricos são a base para a criação de ambientes de jogos críveis e envolventes. Algoritmos avançados podem simular condições de iluminação natural e efeitos climáticos dinâmicos para aumentar o realismo e a atmosfera de uma cena. Os Big Language Models podem ajudar a desenvolver sistemas para obter efeitos atmosféricos e de iluminação mais realistas de várias maneiras inovadoras. Os modelos de linguagem visual podem analisar grandes conjuntos de dados de condições atmosféricas e de iluminação do mundo real para ajudar a desenvolver algoritmos mais realistas para simular esses efeitos em jogos. Ao compreender os padrões e a complexidade da iluminação natural e do clima, esses modelos podem contribuir para o desenvolvimento de algoritmos que imitam a realidade. Os Big Language Models e os Visual Language Models também podem ser usados para desenvolver sistemas que ajustam a iluminação e os efeitos atmosféricos em tempo real com base nas ações do jogador, no estado do jogo ou em entradas externas. Eles podem processar comandos de linguagem natural do jogador para modificar o ambiente do jogo e proporcionar uma experiência mais interativa e imersiva.

6.1.5 Experimentos e resultados

Aprendizado de amostra zero/pequenas amostras usando um modelo de linguagem grande ou um modelo de linguagem visual.

Como mostramos nas Figuras 8 e 9, usamos a GPT-4V para descrição de alto nível e previsão de ações. A Figura 8 mostra alguns exemplos qualitativos do uso da GPT-4V para gerar descrições e edições de ações. O texto inteligente com corpo aprimorado abre uma nova maneira de gerar cenas 3D usando a ação do jogo a priori para ajudar a melhorar a naturalidade da cena. Como resultado, o GPT-4V gera descrições relevantes de alto nível relacionadas ao vídeo do jogo.

Modelos de pré-treinamento para inteligências pequenas.

Para demonstrar nossa arquitetura de linguagem visual para inteligíveis, primeiro investigamos sua aplicação para pré-treinamento em dados do Minecraft, um domínio amplamente usado para inteligíveis de jogos. Conforme mostrado na Figura 7, com um corpo inteligente de ação de entrada, quadros-chave de vídeo e texto correspondente, as ações e imagens do corpo inteligente podem ser convertidas em Action Text Token e Image Patch Token usando um codificador-decodificador padrão, que pode então ser convertido em Action Prediction Sentences usando um decodificador de linguagem visual de corpo inteligente. A arquitetura geral é mostrada na Figura 7. Avaliamos nossa abordagem usando várias demonstrações do Minecraft. Os dados de vídeo do Minecraft consistem em clipes de 5 minutos, e o vídeo que usamos para o pré-treinamento contém 78 mil vídeos, e usamos 5 mil vídeos (representando 6% dos dados de pré-treinamento) para a primeira rodada de pré-treinamento. Treinamos um modelo de 250 milhões de parâmetros em 16 GPUs NVIDIA v100 durante um dia e visualizamos o resultado do nosso modelo nas Figuras 10 e 11. A Figura 10 mostra que nossa arquitetura de smartbody relativamente pequena pode gerar resultados razoáveis para cenas do Minecraft não vistas durante o treinamento. A Figura 11 mostra uma comparação das previsões do modelo com ações reais de jogadores humanos, demonstrando o potencial de compreensão de baixo nível do nosso pequeno modelo de corpo inteligente.

IA de agente: explorando os limites da interação multimodal-5
Figura 12: MindAgent para Infraestrutura de Jogos de Aprendizagem Contextual. habilidades de planejamento e uso de ferramentas: os ambientes de jogos exigem um conjunto diversificado de habilidades de planejamento e uso de ferramentas para concluir as tarefas. Ele gera informações relevantes sobre o jogo e converte os dados do jogo em um formato de texto estruturado que pode ser processado pelo Big Language Model. Big Language Models: o principal mecanismo de trabalho da nossa infraestrutura toma decisões e, portanto, atua como um despachante para sistemas corporais com várias inteligências. Histórico de memória: utilitários para armazenar informações relevantes. Módulo de ação: extrai ações da entrada textual e as converte em uma linguagem específica do domínio, além de validar a DSL para que não ocorram erros durante a execução.

Infraestrutura corporal multiinteligente.

Conforme mostrado no paradigma do corpo inteligente na Fig. 5, projetamos uma nova infraestrutura para um novo cenário de jogo chamado "CuisineWorld" Gong et al. (2023a). Descrevemos nossa abordagem em detalhes na Figura 12. Nossa infraestrutura permite a colaboração de várias inteligências utilizando o GPT-4 como um planejador central e trabalhando em vários domínios de jogos. Investigamos os recursos de planejamento multiinteligência do sistema e implantamos a infraestrutura em um videogame do mundo real para demonstrar a eficácia de sua colaboração multiinteligência e humano-computador. Além disso, demonstramos o "Cuisineworld", um benchmark baseado em texto para colaboração de inteligência múltipla que fornece uma nova métrica automatizada Collaboration Score (CoS) para quantificar a eficiência da colaboração.

Para obter mais exemplos e detalhes sobre descrições de jogos, previsões de ações de alto nível e dicas do GPT-4V, consulte o Apêndice. Mostramos exemplos de Bleeding Edge, veja a Figura 32 e o Apêndice B; Microsoft Flight Simulator, veja a Figura 33 e o Apêndice C; ASSASSIN's CREED ODYSSEY, veja a Figura 34 e o Apêndice D; GEARS of WAR 4, veja a Figura 35 e o Apêndice E; e Starfield. Consulte a Figura 35 e o Apêndice E; e o exemplo do Starfield, consulte a Figura 36 e o Apêndice F. Também fornecemos capturas de tela detalhadas do processo de solicitação do GPT4V usado para gerar o exemplo do Minecraft, consulte a Figura 31 e o Apêndice A.

6.2 Robótica

Os robôs são inteligências típicas que precisam interagir de forma eficaz com seu ambiente. Nesta seção, apresentamos os principais elementos da operação eficiente de robôs, analisamos os tópicos de pesquisa em que as técnicas mais recentes de Modelagem de Linguagem Grande/Modelagem de Linguagem Visual (LLM/VLM) foram aplicadas e compartilhamos os resultados de nossa pesquisa recente.

Controle de movimento visual.

O controle de movimento visual refere-se à integração da percepção visual e das ações motoras para executar tarefas com eficiência em um sistema robótico. Essa integração é fundamental porque permite que o robô interprete os dados visuais do ambiente e ajuste as ações motoras de acordo para interagir com precisão com o ambiente. Por exemplo, em uma linha de montagem, um robô equipado com controle de movimento por visão pode perceber a posição e a orientação dos objetos e ajustar com precisão o braço robótico para interagir com esses objetos. Esse recurso é fundamental para garantir a precisão e a eficácia das operações robóticas em aplicações que vão desde a automação industrial até a assistência a idosos nas tarefas diárias. Além disso, o controle visual de movimento ajuda os robôs a se adaptarem a ambientes dinâmicos, onde o estado do ambiente pode mudar rapidamente, exigindo o ajuste em tempo real das ações de movimento com base no feedback visual.

Além disso, no contexto de uma operação segura, as informações visuais são essenciais para detectar erros de execução e identificar pré e pós-condições para cada ação do robô. Em ambientes não controlados, como ambientes domésticos desconhecidos, é mais provável que os robôs sejam expostos a resultados não intencionais devido a fatores imprevisíveis, como mudanças no formato dos móveis, mudanças na iluminação e escorregões. A execução de cenários de movimento pré-planejados apenas de forma alimentada pode representar riscos significativos nesses ambientes. Portanto, o uso de feedback visual para validar continuamente os resultados de cada etapa é fundamental para garantir uma operação robusta e confiável do sistema robótico.

Operação condicionada por idioma.

A operação condicionada pela linguagem refere-se à capacidade de um sistema robótico de interpretar e executar tarefas com base em instruções linguísticas. Esse aspecto é particularmente importante para a criação de interfaces homem-robô intuitivas e fáceis de usar. Por meio de comandos de linguagem natural, o usuário pode especificar metas e tarefas para o robô de forma semelhante à comunicação entre humanos, diminuindo assim o limite para operar o sistema robótico. Por exemplo, em um cenário do mundo real, um usuário pode instruir um robô de serviço a "pegar a maçã vermelha da mesa", e o robô analisará esse comando, reconhecerá o objeto ao qual ele se refere e executará a tarefa de pegar o objeto Wake et al. (2023c). O principal desafio é desenvolver algoritmos robustos de processamento e compreensão de linguagem natural que possam interpretar com precisão uma ampla variedade de instruções, desde comandos diretos até instruções mais abstratas, e permitir que o robô traduza essas instruções em tarefas acionáveis. Além disso, garantir que os robôs possam generalizar essas instruções para diferentes tarefas e ambientes é fundamental para aumentar a versatilidade e a utilidade dos robôs em aplicações do mundo real. O uso de entradas linguísticas para orientar o planejamento de tarefas para robôs tem recebido atenção em uma estrutura de robótica chamada Task and Motion Planning Garrett et al. (2021).

Otimização de habilidades.

Pesquisas recentes destacaram a eficácia da Modelagem de Linguagem Ampla (LLM) no planejamento de tarefas robóticas. No entanto, a execução ideal de tarefas, especialmente as que envolvem interações físicas, como agarrar, exige uma compreensão mais profunda do ambiente do que apenas interpretar instruções humanas. Por exemplo, a preensão robótica requer pontos de contato precisos Wake et al. (2023e) e posturas de braço Sasabuchi et al. (2021) para a execução eficaz de ações subsequentes. Embora esses elementos - pontos de contato precisos e posturas do braço - sejam intuitivos para os seres humanos, expressá-los por meio da linguagem é um desafio. Apesar dos avanços na modelagem de linguagem visual (VLM) em escala da Internet, capturar essas dicas indiretas sutis de uma cena e traduzi-las efetivamente em habilidades robóticas continua sendo um desafio significativo. Em resposta a isso, a comunidade de robótica tem se concentrado cada vez mais na coleta de conjuntos de dados aumentados (por exemplo, Wang et al. (2023d); Padalkar et al. (2023)) ou no desenvolvimento de métodos para adquirir habilidades diretamente de demonstrações humanas Wake et al. (2021a). Estruturas como Learning from Demonstration e Learning by Imitation estão liderando esses desenvolvimentos e desempenham um papel crucial na otimização das habilidades físicas.

6.2.1 Modelo de linguagem grande/Modelo de linguagem visual (LLM/VLM) Intelligentsia for Robotics.

Pesquisas recentes demonstraram o potencial dos modelos de linguagem grande/modelos de linguagem visual (LLM/VLM) para inteligências robóticas envolvidas na interação com humanos no ambiente. Os tópicos de pesquisa que visam explorar as mais recentes técnicas de Modelagem de Linguagem Grande/Modelagem de Linguagem Visual (LLM/VLM) incluem:

sistema multimodalPesquisa recente tem se concentrado ativamente no desenvolvimento de sistemas de ponta a ponta que usam as mais recentes tecnologias de Modelagem de Linguagem Grande (LLM) e Modelagem de Linguagem Visual (VLM) como codificadores de informações de entrada. Em particular, a modificação desses modelos subjacentes para lidar com informações multimodais tornou-se uma tendência importante.Jiang et al. (2022); Brohan et al. (2023, 2022); Li et al. (2023d); Ahn et al. (2022b); Shah et al. (2023b); Li et al. ( 2023e). Essa adaptação visa a orientar as ações do robô com base em comandos verbais e dicas visuais para uma incorporação eficaz.

Planejamento de missões e treinamento de habilidadesEm contraste com os sistemas de ponta a ponta, os sistemas baseados em planejamento de tarefas e movimentos (TAMP) primeiro calculam planos de tarefas de alto nível, que são então realizados por meio de controle de robôs de baixo nível (chamados de habilidades).

Os recursos avançados de processamento de linguagem dos Modelos de Linguagem Ampla (LLMs) demonstraram ser capazes de interpretar instruções e decompô-las em etapas de ação do robô, o que representa um grande avanço nas técnicas de planejamento de tarefas Ni et al. (2023); Li et al. (2023b); Parakh et al. (2023); Wake et al. (2023c). Para o treinamento de habilidades, vários estudos exploraram o uso de Modelagem de Linguagem Ampla (LLM)/Modelagem de Linguagem Visual (VLM) para projetar funções de recompensa Yu et al. (2023a); Katara et al. (2023); Ma et al. (2023), para gerar dados para aprendizado de estratégia Kumar et al. (2023); Du et al. ( 2023), ou como parte de uma função de recompensa Sontakke et al. (2023). Combinados com estruturas de treinamento, como aprendizagem por reforço e aprendizagem por imitação, esses esforços ajudarão a desenvolver controladores de robôs eficientes.

Otimização no siteDescrição: A execução de etapas longas de tarefas em robótica pode ser difícil devido a condições ambientais inesperadas e imprevisíveis. Portanto, um grande desafio no campo da robótica consiste em adaptar e aprimorar dinamicamente as habilidades robóticas, combinando o planejamento de tarefas com dados ambientais em tempo real. Por exemplo, (Ahn et al., 2022b) propôs um método que calcula a viabilidade (ou seja, a disponibilidade) de uma ação a partir de informações visuais e a compara com uma tarefa planejada. Além disso, há abordagens que se concentram em permitir que um Modelo de Linguagem Ampla (LLM) produza pré-condições e pós-condições (por exemplo, o estado dos objetos e suas inter-relações) de uma etapa da tarefa para otimizar sua execução Zhou et al. (2023c) e detectar erros de pré-condicionamento para fazer as modificações necessárias no plano da tarefa Raman et al. (2023). Essas estratégias visam à execução do robô orientada para o ambiente, integrando informações ambientais e adaptando as ações do robô no plano da tarefa ou no nível do controlador.

Diálogo com a IntelligentsiaNa criação de robôs conversacionais, os modelos de linguagem ampla (LLMs) podem facilitar interações naturais e contextualmente relevantes com humanos Ye et al. (2023a); Wake et al. (2023f). Esses modelos processam e geram respostas que imitam o diálogo humano, permitindo que os robôs se envolvam em conversas significativas. Além disso, os modelos de linguagem ampla (LLMs) desempenham um papel importante na avaliação de conceitos Hensel et al. (2023); Teshima et al. (2022) e atributos afetivos Zhao et al. (2023); Yang et al. (2023b); Wake et al. (2023d). Esses atributos ajudam a entender as intenções humanas e a gerar gestos significativos, contribuindo assim para a naturalidade e a eficácia da comunicação humano-computador.

Navegando em corpos inteligentes: A navegação de robôs tem um longo histórico de pesquisas que se concentram em aspectos essenciais, como planejamento de caminhos baseados em mapas e localização simultânea e construção de mapas (SLAM) para criar mapas do ambiente. Esses recursos se tornaram padrão no middleware robótico amplamente utilizado, como o Sistema Operacional de Robôs (ROS) Guimarães et al. (2016).

Embora as técnicas clássicas de navegação ainda sejam predominantes em muitas aplicações robóticas, elas geralmente dependem de mapas estáticos ou pré-criados. Recentemente, tem havido um interesse crescente em técnicas avançadas que permitem que os robôs naveguem em ambientes mais desafiadores, aproveitando os avanços em áreas como visão computacional e processamento de linguagem natural. Uma tarefa representativa é a navegação de objetos Chaplot et al. (2020a); Batra et al. (2020); Gervet et al. (2023); Ramakrishnan et al. (2022); Zhang et al. (2021), em que os robôs usam nomes de objetos em vez de coordenadas de mapas para navegação, o que exige a localização visual dos nomes dos objetos no ambiente. Além disso, a atenção recente tem se concentrado em técnicas para a navegação de robôs em ambientes completamente desconhecidos e novos de uma maneira de amostra zero em cima de um modelo de base, a chamada navegação de objeto de amostra zero Gadre et al. (2023); Dorbala et al. (2023); Cai et al. (2023). Além disso, a Navegação Linguística Visual (VLN) Anderson et al. (2018a) é uma tarefa representativa, em que a tarefa envolve a navegação de um corpo inteligente por meio de comandos de linguagem natural em um ambiente real não visto anteriormente Shah et al. (2023a); Zhou et al. (2023a); Dorbala et al. (2022); Liang et al. (2023); Huang et al. (2023b). A navegação visual linguística (VLN) interpreta frases em vez de nomes de objetos, por exemplo, "caminhe até o banheiro à sua esquerda", portanto, requer maior funcionalidade para analisar o texto de entrada Wang et al. (2019).

O surgimento do modelo subjacente contribuiu para o desenvolvimento dessa técnica de navegação adaptativa e imediata, aprimorando a compreensão dos comandos verbais humanos e a interpretação visual das informações ambientais. Consulte 6.2.2 para obter uma explicação mais detalhada da pesquisa representativa da navegação visual linguística (VLN).

6.2.2 Experimentos e resultados.

IA de agente: explorando os limites da interação multimodal-7
Figura 13: Visão geral de um sistema de ensino robótico que integra um planejador de tarefas orientado pelo ChatGPT. O processo consiste em duas etapas: planejamento de tarefas, em que o usuário cria uma sequência de ações usando o planejador de tarefas e ajusta os resultados com feedback conforme necessário; e demonstração, em que o usuário demonstra visualmente a sequência de ações para fornecer as informações necessárias para a operação do robô. O sistema de visão coleta os parâmetros visuais que serão usados para a execução do robô.

Há cada vez mais evidências de que os recentes Modelos de Linguagem Visual (VLMs) e Modelos de Linguagem Ampla (LLMs) têm bons recursos para o planejamento de tarefas simbólicas (por exemplo, o que fazer). No entanto, cada tarefa requer estratégias de controle de baixo nível (por exemplo, como fazer) para obter uma interação bem-sucedida entre os ambientes. Embora o reforço e a aprendizagem por imitação sejam abordagens promissoras para aprender estratégias de maneira orientada por dados, outra abordagem promissora é adquirir estratégias diretamente de humanos por meio de demonstrações ao vivo, uma abordagem conhecida como "aprender com a observação" Wake et al. (2021a); Ikeuchi et al. Nesta seção, apresentamos um estudo no qual usamos o ChatGPT para planejamento de tarefas e enriquecemos o plano parametrizando-o com informações de disponibilidade para facilitar a execução eficaz e precisa (Figura 13).

O processo consiste em dois módulos: planejamento de tarefas e parametrização. No planejamento de tarefas, o sistema recebe instruções linguísticas e uma descrição do ambiente de trabalho. Essas instruções, juntamente com as ações predefinidas do robô e as especificações de saída, são compiladas em um prompt abrangente fornecido ao ChatGPT, que gera uma série de tarefas decompostas e suas descrições textuais (Fig. 13; painel esquerdo). É importante observar que usamos uma abordagem sem amostras, o que significa que o ChatGPT não foi treinado para essa tarefa, o que é vantajoso em termos de aplicabilidade, pois elimina a necessidade de coleta de dados relacionados a hardware e treinamento de modelos. Além disso, as descrições textuais na saída permitem que o usuário verifique e ajuste os resultados conforme necessário, um recurso essencial para uma operação segura e confiável. A Figura 14 mostra os resultados qualitativos da simulação de inteligências realizada com base no VirtualHome Puig et al. (2018). Os resultados mostram um plano de tarefas razoável e flexibilidade no ajuste da saída, demonstrando a ampla aplicabilidade da nossa abordagem.

IA de agente: explorando o mundo da interação multimodal [Fei-Fei Li - Clássico de leitura obrigatória]-2
Figura 14: Exemplo de ajuste da sequência de saída por meio de feedback gerado automaticamente. Usamos o simulador de código aberto VirtualHome em nossos experimentos. Dada a instrução "Pegue a torta na mesa e aqueça-a no fogão". o planejador de tarefas planeja uma sequência de funções fornecidas no VirtualHome. Se for detectado um erro durante a execução, o planejador de tarefas corrige sua saída com uma mensagem de erro gerada automaticamente.

Embora o planejador de tarefas garanta a consistência entre as sequências de tarefas, são necessários parâmetros detalhados para que a operação seja bem-sucedida na realidade. Por exemplo, o tipo de preensão é fundamental para transportar o contêiner sem derramar o conteúdo, um parâmetro que geralmente é ignorado nos simuladores (veja o exemplo de preensão de uma torta na Fig. 14). Portanto, em nosso sistema robótico, o usuário precisa demonstrar cada ação visualmente (Fig. 13; painel direito). Essas tarefas têm parâmetros predefinidos necessários para a execução, que nosso sistema de visão extrai do vídeo Wake et al. (2021b). É importante observar que nosso sistema robótico não foi projetado para replicar com precisão as ações humanas (ou seja, teleoperação), mas sim para lidar com uma variedade de condições do mundo real, como mudanças na posição do objeto. Portanto, os parâmetros extraídos da demonstração humana contêm não apenas os caminhos de movimento precisos, mas também informações de disponibilidade indicativas de movimento ambiental eficaz (por exemplo, waypoints para evitar colisões Wake et al. (2023a), tipo de preensão Wake et al. (2023e) e postura do membro superior Sasabuchi et al. (2021); Wake et al. ( 2021a)). A postura do membro superior é fundamental em robôs com altos graus de liberdade e foi projetada para apresentar posturas previsíveis para humanos que coexistem com o robô operacional. As sequências de tarefas com disponibilidade são convertidas em um conjunto de habilidades robóticas reutilizáveis que podem ser adquiridas por meio do aprendizado por reforço e executadas pelo robô Takamatsu et al. (2022).

IA de agente: explorando os limites da interação multimodal-13
Figura 15: Visão geral do planejador de tarefas multimodais usando GPT-4V e GPT-4. O sistema processa apresentações de vídeo e instruções textuais para gerar planos de tarefas para a execução do robô.

IA de agente: explorando o mundo da interação multimodal [Fei-Fei Li - Clássico de leitura obrigatória]-4
Figura 16: Exemplo de saída do analisador de vídeo. Cinco quadros são extraídos em intervalos fixos e alimentados no GPT-4V. Descrevemos todo o processo na Seção 6.2.2.

Ao integrá-lo aos Modelos de Linguagem Visual (VLMs), o planejamento de tarefas orientado por Modelos de Linguagem Grande (LLMs) pode ser estendido para permitir sistemas robóticos mais generalizados. Aqui, mostramos um exemplo em que usamos o GPT-4V(ision) para ampliar o planejador de tarefas acima em um contexto de entrada multimodal (Fig. 15), em que um ser humano executa ações que devem ser replicadas por um robô. Neste documento, apenas uma parte da dica é mostrada. Os prompts completos podem ser encontrados em microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts.

O processo recebe um vídeo de demonstração e um texto e, em seguida, gera uma série de ações do robô. O analisador visual tem como objetivo entender as ações executadas pelo ser humano no vídeo. Usamos o GPT-4V e fornecemos um prompt para gerar um estilo de comandos textuais semelhante à comunicação entre humanos. A Figura 16 ilustra como o uso de entrada de texto permite que o usuário forneça feedback para correções dos resultados de reconhecimento do GPT-4V. Esse recurso, projetado para melhorar a precisão dos resultados de reconhecimento, também permite uma operação mais robusta.

IA de agente: explorando os limites da interação multimodal-15
Figura 17: Exemplo de saída do analisador de cena usando GPT-4V. Descrevemos todo o nosso processo na Seção 6.2.2.

Em seguida, o analisador de cena compila o ambiente de trabalho esperado em informações textuais com base no primeiro quadro (ou imagem do ambiente) dos dados de comando e vídeo. Essas informações sobre o ambiente incluem uma lista de nomes de objetos reconhecidos pelo GPT-4V, atributos de objetos que podem ser agarrados e relações espaciais entre os objetos. Embora esses processos computacionais estejam em uma caixa preta no GPT-4V, eles se baseiam no conhecimento do GPT-4V, bem como nas informações de entrada/saída de imagem/texto. A Figura 17 mostra um exemplo de saída do nosso analisador de cenas. Conforme mostrado, o GPT-4V seleciona com êxito os objetos relevantes para a operação. Por exemplo, quando um ser humano realoca um recipiente de spam em uma mesa, uma mesa é incluída na saída, enquanto a mesa é ignorada na tarefa de abertura da geladeira. Esses resultados sugerem que o analisador de cena codifica as informações da cena com base nas ações humanas. Solicitamos ao GPT-4V que explicasse os resultados do processo de seleção de objetos e os motivos por trás dessas seleções. Na prática, descobrimos que essa abordagem produziu resultados razoáveis. Por fim, com base nas instruções textuais fornecidas e nas informações do ambiente, o planejador de tarefas gera uma série de tarefas Wake et al. (2023c).

Inteligências incorporadas para navegação de robôs.

A tarefa da Navegação Visual Linguística (VLN) é navegar em uma inteligência incorporada para executar comandos de linguagem natural em um ambiente 3D realista. A navegação em ambientes 3D Zhu et al. (2017a); Mirowski et al. (2016); Mousavian et al. (2018); Hemachandra et al. (2015) é um recurso essencial para sistemas inteligentes móveis que operam no mundo físico. Nos últimos anos, um grande número de tarefas e protocolos de avaliação foram propostos Savva et al. (2017); Kolve et al. (2017); Song et al. (2017); Xia et al. (2018); Anderson et al. (2018a), como Anderson et al. (2018b) resumido em. Navegação visual linguística (VLN) Anderson et al. (2018a) concentram-se na navegação baseada em linguagem em ambientes 3D reais. Para abordar a tarefa de Navegação Visual Linguística (VLN), (Anderson et al., 2018a) desenvolveram um modelo de linha de base de sequência a sequência baseado em atenção. Em seguida, (Wang et al., 2018) introduziram uma abordagem híbrida que combina o aprendizado por reforço (RL) sem modelo e baseado em modelo para melhorar a generalização do modelo. Por fim, (Fried et al., 2018) propõem um modelo seguidor de alto-falante que emprega aumento de dados, espaço de ação panorâmico e busca de feixe modificada para navegação visual-linguística (VLN) para estabelecer o desempenho atual de última geração no conjunto de dados Room-to-Room. Com base em trabalhos anteriores, apresentamos o Reinforced Cross-Modal Matching (RCM) para navegação visual-linguística (VLN) em (Wang et al., 2019). (1) O RCM combina um novo tipo de aprendizado por reforço (RL) com múltiplas recompensas com o aprendizado por reforço para navegação visual de linguagem (VLN) com aprendizado por imitação, enquanto o modelo de seguidor de alto-falante de Fried et al. (2018) usa apenas aprendizado supervisionado, conforme mostrado em (Anderson et al., 2018a). (2) O navegador de inferência RCM executa a localização intermodal em vez de um mecanismo de atenção temporal para entradas unimodais. (3) O RCM Matching Critic é semelhante ao alto-falante em termos de projeto arquitetônico, mas o primeiro é usado para fornecer reconstrução cíclica de recompensas intrínsecas para treinamento de Aprendizado por Reforço (RL) e Aprendizado por Imitação Autossupervisionado (SIL), enquanto o último é usado para aumentar os dados de treinamento para aprendizado supervisionado. Em (Wang et al., 2019), investigamos como abordar os três principais desafios do líder para essa tarefa: localização transmodal, feedback para a falta de proposição e o problema de generalização. Conforme mostrado na Fig. 18, propomos um novo método de correspondência transmodal de reforço que impõe a localização transmodal local e globalmente por meio do aprendizado por reforço (RL). Em particular, um comentarista de correspondência é usado para fornecer recompensas intrínsecas para incentivar a correspondência global entre instruções e trajetórias, e um navegador de inferência é usado para executar a localização transmodal na cena visual local. A avaliação do conjunto de dados de referência Visual Linguistic Navigation (VLN) mostra que nosso modelo RCM supera significativamente a abordagem anterior 10% em SPL e atinge um novo desempenho de última geração. Para melhorar a capacidade de generalização da estratégia de aprendizagem, introduzimos ainda uma abordagem de aprendizagem por imitação autossupervisionada (SIL) para explorar ambientes não vistos imitando suas próprias decisões anteriores. Demonstramos que a aprendizagem por imitação autossupervisionada (SIL) pode aproximar estratégias melhores e mais eficazes, reduzindo significativamente a diferença de desempenho da taxa de sucesso entre ambientes vistos e não vistos (de 30,7% para 11,7%). Além disso, em Wang et al. (2019), apresentamos um método de aprendizado por imitação autossupervisionado para exploração a fim de abordar explicitamente o problema de generalização, que não foi totalmente investigado em trabalhos anteriores. Paralelamente a este trabalho, Thomason et al. (2018); Ke et al. (2019); Ma et al. (2019a, b) investigaram tarefas de navegação visual linguística (VLN) em vários aspectos e Nguyen et al. (2018) introduziram uma variante da tarefa de navegação visual linguística (VLN) para, quando necessário solicitar ajuda linguística para encontrar objetos. Observe que somos os primeiros a propor a exploração de ambientes não vistos para tarefas de navegação visual linguística (VLN).

IA de agente: explorando os limites da interação multimodal-10
Figura 18: Demonstração da tarefa de navegação visual linguística (VLN) de inteligências incorporadas de Wang et al. (2019). São mostradas instruções, cenas visuais locais e trajetórias globais na vista superior. O corpo inteligente não tem acesso à vista superior. O caminho A é o caminho de demonstração que segue a instrução. Os caminhos B e C são dois caminhos diferentes executados pelo corpo inteligente.

6.3 Assistência médica

Na área da saúde, os Modelos de Linguagem Ampla (LLMs) e os Modelos de Linguagem Visual (VLMs) podem atuar como inteligências de diagnóstico, assistentes de atendimento ao paciente e até mesmo auxiliares terapêuticos, mas também enfrentam desafios e responsabilidades de liderança exclusivos. Como as inteligências de IA têm um enorme potencial para melhorar o atendimento ao paciente e salvar vidas, a possibilidade de serem mal utilizadas ou implantadas apressadamente pode colocar em risco milhares ou até milhões de pessoas em todo o mundo é igualmente perigosa. Discutiremos alguns dos caminhos promissores para as inteligências de IA na área da saúde e abordaremos alguns dos principais dilemas enfrentados pelos líderes.

Diagnosticando a Intelligentsia.

Os chatbots médicos que usam modelos de linguagem ampla (LLMs) como diagnósticos de pacientes atraíram recentemente muita atenção devido à alta demanda por especialistas médicos e ao potencial dos LLMs para ajudar a classificar e diagnosticar pacientes Lee et al. (2023). As inteligências conversacionais, especialmente aquelas que podem comunicar com eficácia informações médicas importantes a uma ampla gama de pessoas de diversas populações de pacientes, têm o potencial de fornecer acesso equitativo à saúde para grupos historicamente desfavorecidos ou marginalizados. Além disso, os médicos e os sistemas de saúde em todo o mundo estão, em grande parte, sobrecarregados e com poucos recursos, o que faz com que centenas de milhões de pessoas em todo o mundo não tenham acesso a um atendimento de saúde adequado Organização Mundial da Saúde e Banco Mundial (2015). As inteligências diagnósticas oferecem um caminho particularmente favorável para melhorar a assistência médica de milhões de pessoas, pois podem ser desenvolvidas com a capacidade de compreender uma ampla variedade de idiomas, culturas e condições de saúde. Os resultados preliminares sugerem que grandes modelos de linguagem (LMMs) com conhecimento de saúde podem ser treinados com a utilização de dados de rede em grande escala Li et al. (2023f). Embora essa seja uma direção empolgante, a perspectiva de inteligências diagnósticas não é isenta de riscos. Nas próximas seções, vamos nos concentrar nos riscos de alucinações em ambientes de saúde, bem como em possíveis caminhos para soluções.

Inteligência de recuperação de conhecimento.

No contexto médico, as alucinações de modelagem são particularmente perigosas e podem até levar a lesões graves ou à morte do paciente, dependendo da gravidade do erro. Por exemplo, se um paciente recebe incorretamente um diagnóstico que sugere uma condição que ele não tem de fato, isso pode levar a consequências catastróficas. Essas consequências podem incluir um tratamento atrasado ou inadequado ou, em alguns casos, a completa falta de intervenção médica necessária. A gravidade de uma condição não diagnosticada ou diagnosticada incorretamente pode levar ao aumento dos custos de assistência médica, a um tratamento prolongado que leva a mais estresse físico e, em casos extremos, a lesões graves ou até mesmo à morte. Portanto, métodos que permitem uma recuperação de conhecimento mais confiável usando corpos inteligentes Peng et al. (2023) ou métodos que geram texto de maneira baseada em recuperação Guu et al. (2020) são direções promissoras. O emparelhamento de inteligências de diagnóstico com inteligências de recuperação de conhecimento médico tem o potencial de reduzir significativamente as alucinações e, ao mesmo tempo, melhorar a qualidade e a precisão das respostas das inteligências de diálogo de diagnóstico.

Telemedicina e monitoramento remoto.

A IA baseada em corpos inteligentes também tem grande potencial na telemedicina e no monitoramento remoto para melhorar o acesso à saúde, melhorar a comunicação entre os prestadores de serviços de saúde e os pacientes e aumentar a eficiência e reduzir o custo das frequentes interações médico-paciente Amjad et al. (2023). Os médicos da atenção primária passam muito tempo examinando mensagens, relatórios e e-mails de pacientes que, muitas vezes, são irrelevantes ou desnecessários para eles. O suporte a inteligências que podem ajudar a categorizar mensagens de médicos, pacientes e outros prestadores de serviços de saúde e ajudar a destacar mensagens importantes de todas as partes tem um enorme potencial. O setor de telemedicina e saúde digital tem um enorme potencial de transformação ao permitir que sistemas de IA de corpos inteligentes se coordenem com pacientes, médicos e outras inteligências de IA.

6.3.1 Capacidade atual do setor de saúde

IA de agente: explorando os limites da interação multimodal-19
Figura 19: Exemplos de dicas e respostas ao usar a GPT-4V no domínio de compreensão de imagens de saúde. Da esquerda para a direita: (1) imagens de uma tomografia computadorizada realizada por uma enfermeira e um médico, (2) uma imagem sintética de um exame de ECG irregular e (3) uma imagem do conjunto de dados de lesões cutâneas ISIC Codella et al. (2018). Podemos ver que o GPT-4V possui conhecimento médico substancial e é capaz de raciocinar sobre imagens médicas. No entanto, ele não consegue diagnosticar determinadas imagens médicas devido ao treinamento de segurança.

IA de agente: explorando os limites da interação multimodal-5
Figura 20: Exemplo de dicas e respostas ao usar o GPT-4V no domínio de compreensão de vídeos da área de saúde. Inserimos os vídeos de exemplo como grades 2x2 e sobrepusemos o texto para indicar a ordem dos quadros. Nos dois primeiros exemplos, solicitamos que o GPT-4V examinasse os quadros do vídeo para detectar atividades clínicas no leito realizadas em um paciente voluntário. No último exemplo, tentamos solicitar que o GPT-4V avaliasse o vídeo de ecocardiografia, mas, devido ao treinamento de segurança do GPT-4V, ele não forneceu uma resposta detalhada. Para maior clareza, destacamos o texto que descreve a atividade de interesse em negrito e abreviamos as respostas desnecessárias dos modelos. Escondemos os rostos dos indivíduos em cinza para proteger sua privacidade.

Compreensão de imagem.

Mostramos na Figura 19 os recursos e as limitações atuais das inteligências multimodais modernas, como o GPT-4V, em um contexto de assistência médica. Podemos ver que, embora o GPT-4V tenha uma grande quantidade de conhecimento interno sobre os equipamentos e procedimentos envolvidos no atendimento hospitalar, ele nem sempre responde às consultas mais prescritivas ou de diagnóstico do usuário.

Compreensão de vídeo.

Investigamos o desempenho das inteligências de modelagem de linguagem visual (VLM) para a compreensão de vídeos médicos em dois contextos. Em primeiro lugar, investigamos a capacidade das inteligências do Modelo de Linguagem Visual (VLM) de reconhecer atividades importantes de atendimento ao paciente no espaço clínico. Em segundo lugar, exploramos a aplicação do Modelo de Linguagem Visual (VLM) a vídeos mais especializados, como os de ultrassom. Especificamente, na Figura 20, demonstramos alguns dos recursos e limitações atuais do GPT-4V para atendimento hospitalar e análise de vídeos médicos.

6.4 Inteligências multimodais

IA de agente: explorando os limites da interação multimodal-18
Figura 21: A inteligência multimodal interativa consiste em quatro pilares: interação, fala, visão e linguagem. O corpo inteligente do Co-Pilot consiste em diferentes serviços.1) Os serviços de interação ajudam a desenvolver uma plataforma unificada para operações automatizadas, cognição e tomada de decisões.2) Os serviços de áudio integram o processamento de áudio e fala em aplicativos e serviços.3) Os serviços de visão identificam e analisam o conteúdo de imagens, vídeos e tinta digital.4) Os serviços de linguagem extraem o significado de textos estruturados e não estruturados.

A integração da visão e da compreensão da linguagem é fundamental para o desenvolvimento de inteligências de IA multimodais complexas. Isso inclui tarefas como legendas de imagens, respostas a perguntas visuais, geração de linguagem de vídeo e compreensão de vídeo. Nosso objetivo é nos aprofundar nessas tarefas visuais e linguísticas e explorar os desafios e as oportunidades que elas apresentam no contexto das inteligências de IA.

6.4.1 Compreensão e geração de linguagem de imagem

A compreensão da linguagem da imagem é uma tarefa que envolve a interpretação do conteúdo visual linguístico de uma determinada imagem e a geração da descrição linguística associada. Essa tarefa é fundamental para o desenvolvimento de inteligências de IA que possam interagir com o mundo de uma maneira mais semelhante à humana. Algumas das tarefas mais populares são legendas de imagens Lin et al. (2014); Sharma et al. (2018); Young et al. (2014); Krishna et al. (2016), representação de dedos Yu et al. (2016); Karpathy et al. (2014) e resposta a perguntas visuais Antol et al. (2015); Ren et al. (2015); Singh et al. (2019).

Recentemente, foram introduzidas tarefas de resposta a perguntas visuais com uso intensivo de conhecimento, como OKVQA Marino et al. (2019), KB-VQA Wang et al. (2015), FVQA Wang et al. (2017) e WebQA Chang et al. (2021). As inteligências multimodais devem ser capazes de reconhecer objetos em uma imagem, entender suas relações espaciais, gerar sentenças descritivas precisas sobre a cena e usar habilidades de inferência para lidar com o raciocínio visual de conhecimento intensivo. Isso requer não apenas habilidades de reconhecimento de objetos, mas também uma compreensão profunda das relações espaciais, da semântica visual e da capacidade de mapear esses elementos visuais para estruturas linguísticas com conhecimento de mundo.

6.4.2 Compreensão e geração de vídeo e linguagem

Geração de linguagem de vídeo.

A legendagem ou narração de vídeos é a tarefa de gerar frases coerentes para uma série de quadros de vídeo. Inspiradas pelo sucesso do modelo de base recorrente em grande escala usado em tarefas de vídeo e linguagem, as variantes do modelo de aumento orientado por inteligência mostram resultados promissores em tarefas de geração de linguagem de vídeo. O desafio fundamental é que a robustez do modelo de codificador-decodificador neural não funciona bem para contar histórias visuais, pois a tarefa exige uma compreensão abrangente do conteúdo de cada imagem e das relações entre os diferentes quadros. Um objetivo importante nessa área é criar um modelo de síntese de texto com reconhecimento corporal inteligente que possa codificar com eficiência sequências de quadros e gerar um parágrafo com várias frases tematicamente coerente.

Compreensão de vídeo.

A compreensão de vídeo amplia o escopo da compreensão de imagens para o conteúdo visual dinâmico. Isso envolve a interpretação e o raciocínio sobre sequências de quadros em um vídeo, geralmente em conjunto com informações de áudio ou texto. A Intelligentsia deve ser capaz de interagir com uma variedade de modalidades visuais, textuais e de áudio para demonstrar sua compreensão avançada do conteúdo de vídeo. As tarefas nessa área incluem legendas de vídeo, respostas a perguntas de vídeo e reconhecimento de atividades. Os desafios do líder na compreensão de vídeos são multifacetados. Eles incluem o alinhamento temporal do conteúdo visual e verbal, o processamento de quadros sequenciais longos e a interpretação de atividades complexas que se desenvolvem ao longo do tempo. Com relação ao áudio, a inteligência pode processar palavras faladas, ruído de fundo, música e entonação para entender o clima, o cenário e as nuances do conteúdo do vídeo.

Trabalhos anteriores se concentraram no uso de dados de treinamento de linguagem de vídeo existentes disponíveis on-line para criar modelos de base de vídeo Li et al. (2020, 2021b); Fu et al. (2022); Bain et al. (2021); Zellers et al. (2021, 2022); Fu et al. (2023). No entanto, o suporte a esses processos e funções de treinamento é difícil devido à natureza limitada e muitas vezes inconsistente desses conjuntos de dados. Os modelos de base de vídeo são projetados usando objetivos de pré-treinamento de máscara e contraste e, em seguida, adaptados às suas respectivas tarefas. Apesar de apresentarem excelentes resultados em benchmarks multimodais, esses modelos têm dificuldades com tarefas somente de vídeo, como o reconhecimento de ações, porque dependem de dados limitados de texto de vídeo construídos a partir de transcrições de áudio com ruído. Essa limitação também leva à falta de robustez e de habilidades de raciocínio refinado que, em geral, são possuídas por modelos de linguagem grandes.

Outras abordagens, semelhantes às usadas na compreensão de linguagem de imagem, utilizam as poderosas habilidades de raciocínio e o amplo conhecimento de grandes modelos de linguagem para aprimorar diferentes aspectos da interpretação de vídeo. A tarefa de compreensão de vídeo é simplificada por modelos somente de linguagem, como o ChatGPT e o GPT4, ou por modelos de linguagem de imagem, como o GPT4-V, que tratam as modalidades de áudio, vídeo e linguística como tipos de dados de entrada interpretáveis separados e posicionam a inteligência como modelos avançados de código aberto. Por exemplo, Huang et al. (2023c); Li et al. (2023g) convertem a compreensão de vídeo em fórmulas de resposta a perguntas de processamento de linguagem natural (PNL) por meio da textualização do conteúdo de vídeo usando modelos de classificação/detecção/subtitulação visual de código aberto. para facilitar tarefas complexas de compreensão de vídeo, como ações e manipulações de caracteres de script em vídeos de formato longo.

Estudos paralelos exploraram a geração de conjuntos de dados em escala a partir de modelos grandes e, em seguida, aplicaram ajustes de instrução visual nos dados gerados Liu et al. (2023c); Li et al. (2023c); Zhu et al. (2023). O vídeo foi então representado usando um grande número de modelos perceptuais de especialistas em áudio, fala e visual. A fala foi transcrita usando uma ferramenta de reconhecimento automático de fala e as descrições de vídeo e os dados associados foram gerados usando vários modelos de rotulagem, posicionamento e legenda Li et al. (2023g); Maaz et al. (2023); Chen et al. (2023); Wang et al. (2023f). Essas técnicas demonstram como a adaptação das instruções de um modelo de linguagem de vídeo em um conjunto de dados gerado pode aprimorar os recursos de raciocínio e comunicação de vídeo.

6.4.3 Experimentos e resultados

Modelos com uso intensivo de conhecimento: Uma tarefa de conhecimento neural intensivo que combina o conhecimento necessário de anotações humanas para dar suporte a tarefas de recuperação de conhecimento intensivo, conforme apresentado em INK Park et al. (2022) e KAT Gui et al. (2022a).
Inteligências multimodais: Há um interesse crescente em modelos de linguagem multimodal, como o Chameleon Lu et al. (2023) e o MM-React Yang et al. (2023c).
Ajuste do comando visual: VCL Gui et al. (2022b), Mini-GPT4 Zhu et al. (2023), MPLUG-OWL Ye et al. (2023b), LSKD Park et al. (2023c) para gerar conjuntos de dados de ajuste de instruções em nível de imagem.

IA de agente: explorando os limites da interação multimodal-12
Figura 22: Exemplo da tarefa INK (Intensive Neural Knowledge) de Park et al. (2022), que usa o conhecimento para identificar textos relacionados a imagens em um conjunto de textos candidatos. Nossa tarefa envolve a utilização de conhecimento visual e textual recuperado da Web e conhecimento anotado manualmente.

Inteligências intensivas em conhecimento.

Como mostram as Figuras 22 e 23, as tarefas de resposta a perguntas visuais baseadas em conhecimento e de recuperação de linguagem visual são tarefas desafiadoras no aprendizado de máquina multimodal que exigem conhecimento externo além do conteúdo da imagem. Pesquisas recentes sobre transformadores de grande escala se concentraram principalmente em maximizar a eficiência do armazenamento de informações sobre os parâmetros do modelo. Esta linha de pesquisa explora um aspecto diferente: se os Transformers multimodais podem usar conhecimento explícito em seu processo de tomada de decisão. Os métodos de pré-treinamento baseados em transformadores demonstraram excelente sucesso na aprendizagem implícita de representações de conhecimento em várias modalidades. No entanto, as abordagens tradicionais (principalmente unimodais) investigaram principalmente a recuperação de conhecimento e a previsão de respostas subsequentes, levantando questões sobre a qualidade e a relevância do conhecimento recuperado, bem como a integração de processos de raciocínio usando conhecimento implícito e explícito. Para abordar essas questões, apresentamos o Knowledge Augmentation Transformer (KAT), que supera outros modelos em 6% na tarefa multimodal de domínio aberto OK-VQA 2022. O KAT combina o conhecimento implícito do GPT3 com o conhecimento explícito de sites usando uma arquitetura de codificador-decodificador e permite o uso de ambos os tipos de conhecimento durante o raciocínio simultâneo durante a geração de respostas usando os dois tipos de conhecimento. Além disso, a combinação de conhecimento explícito aumenta a interpretabilidade das previsões do modelo. O código e o modelo pré-treinado podem ser encontrados em https://github.com/guilk/KAT.

IA de agente: explorando os limites da interação multimodal-6
Figura 23: Modelo KAT Gui et al. (2022a) recuperam entradas de conhecimento da base de conhecimento explícito usando um módulo baseado em aprendizado por contraste e recuperam conhecimento implícito com evidências de apoio usando GPT-3. A integração do conhecimento é tratada pelo respectivo codificador Transformer e a geração de respostas é realizada em conjunto pelo módulo de treinamento e raciocínio de ponta a ponta e pelo decodificador Transformer.

IA de agente: explorando os limites da interação multimodal-21
Figura 24: Arquitetura geral do modelo VLC Gui et al. (2022b). Nosso modelo consiste em três módulos: (1) projeções específicas da modalidade. Usamos uma projeção linear simples para incorporar imagens corrigidas e uma camada de incorporação de palavras para incorporar texto tokenizado; (2) um codificador multimodal. Usamos o ViT Dosovitskiy et al. (2021) de 12 camadas inicializado a partir do MAE He et al. (2022) (ImageNet-1K sem rótulos) como nossa espinha dorsal; (3) decodificador específico da tarefa. Aprendemos nossa representação multimodal por meio de modelagem de imagem/idioma mascarada e correspondência imagem-texto usada somente durante o pré-treinamento. Usamos um MLP de 2 camadas para fazer o ajuste fino do nosso codificador multimodal para tarefas posteriores. É importante ressaltar que descobrimos que o objetivo de modelagem de imagens mascaradas é importante no segundo estágio do pré-treinamento, não apenas para inicializar o transformador visual.

Linguagem visual Inteligências transformadoras.

Em seguida, apresentamos o modelo "Training Visual Language Transformer from Captions" (VLC) de Gui et al. (2022b), um transformador que é pré-treinado usando apenas pares de legendas de imagens. Embora o VLC use apenas camadas de projeção linear simples para incorporação de imagens, ele obtém resultados competitivos em várias tarefas de linguagem visual em comparação com outros métodos que dependem de detectores de objetos ou redes CNN/ViT supervisionadas. O VLC obtém resultados competitivos em várias tarefas de linguagem visual em comparação com outras abordagens que dependem de detectores de objetos ou redes CNN/ViT supervisionadas. Por meio de análises abrangentes, exploramos o potencial do VLC como uma inteligência transformadora de linguagem visual. Por exemplo, mostramos que a representação visual do VLC é muito eficaz para a classificação do ImageNet-1K, e nossas visualizações confirmam que o VLC pode corresponder com precisão os pedaços de imagem com os tokens de texto correspondentes. O escalonamento do desempenho com dados de treinamento adicionais destaca o grande potencial para o desenvolvimento de modelos de linguagem visual de domínio aberto, fracamente supervisionados e em grande escala.

6.5 Experimentos de linguagem de vídeo

Para entender a utilidade do uso de Modelos de Linguagem de Imagem Grande (LLMs) pré-treinados para a compreensão de vídeos, estendemos temporalmente e ajustamos o InstructBLIP Dai et al. (2023) para a geração de legendas de vídeo. Especificamente, estendemos o codificador visual do InstructBLIP (EVA-CLIP-G Sun et al. (2023b)) usando o mesmo esquema de atenção espaço-temporal segmentado do Frozen in Time Bain et al. (2021) e mantivemos o Q-former e o modelo de linguagem grande (LLM) durante o treinamento (Flan-T5-XL Chung et al. (2022)) congelados. Congelamos todas as camadas espaciais do codificador visual, mantendo a camada temporal descongelada durante o treinamento da legenda. Isso permite que nosso modelo receba imagens e vídeos como entrada (correspondendo ao desempenho em nível de imagem do InstructBLIP). Treinamos em um subconjunto de 5 milhões de legendas de vídeo do WebVid10M Bain et al. (2021). Visualizamos dois exemplos de resultados na Figura 25. No entanto, as inteligências existentes não conseguem compreender totalmente os detalhes visuais precisos e refinados do conteúdo de vídeo. Os métodos de ajuste fino de comandos visuais sofrem de limitações semelhantes, pois carecem de recursos perceptivos genéricos de nível humano que ainda precisam ser abordados por modelos multimodais e inteligências.

IA de agente: explorando os limites da interação multimodal-14
Figura 25: Exemplo de dicas e respostas ao usar a variante de ajuste fino de vídeo do InstructBLIP (o método descrito na Seção 6.5). Nosso modelo é capaz de gerar respostas de texto longo que descrevem a cena e de responder a perguntas relacionadas à temporalidade dos eventos no vídeo.

Os modelos de ajuste fino de comando são promissores em resumir com precisão as ações visíveis no vídeo e identificar com eficácia ações como a "pessoa sentada no banco", conforme mostrado na Figura 25. Entretanto, às vezes eles acrescentam detalhes incorretos, como a "pessoa sorrindo para a câmera", o que revela uma deficiência na captura do tema do diálogo ou da atmosfera do vídeo, elementos que seriam óbvios para um observador humano. Essa deficiência destaca outra limitação importante: a omissão de modalidades de áudio e fala que enriqueceriam a compreensão do vídeo por meio do contexto, ajudando a fazer interpretações mais precisas e evitando essas representações errôneas. Para preencher essa lacuna, é necessária uma integração holística das modalidades disponíveis para permitir que as inteligências multimodais atinjam um nível de compreensão semelhante ao da percepção humana e para garantir uma abordagem totalmente multimodal à interpretação de vídeo.

Inteligências áudio-vídeo-verbais baseadas na GPT-4V.

IA de agente: explorando os limites da interação multimodal-5
Figura 26: As inteligências multimodais de áudio descritas na Seção 6.5. O conteúdo ilusório está destacado em vermelho. Usamos o GPT-4V para gerar 1) resumos de bate-papo em vídeo com quadros de vídeo, 2) resumos de vídeo com legendas de quadros e 3) resumos de vídeo com legendas de quadros e informações de áudio.

IA de agente: explorando os limites da interação multimodal-7
Figura 27: Uma inteligência multimodal interativa que combina modalidades visuais, de áudio e textuais para a compreensão de vídeos. Nosso processo extrai ilusões negativas difíceis para gerar consultas difíceis para o desafio VideoAnalytica. Para obter mais detalhes relevantes sobre o conjunto de dados Interactive Audio-Video-Language Intelligentsia, consulte a Seção 9.2.

Em seguida, seguimos a abordagem descrita em Lin et al. (2023) para avaliar a capacidade do GPT-4V de atuar como uma inteligência multimodal que integra visão, áudio e fala para uma compreensão detalhada e precisa do vídeo. Os resultados apresentados na Figura 26 comparam o desempenho de várias inteligências de vídeo em uma tarefa de resumo de vídeo. O modelo de ajuste fino de instruções de vídeo (Li et al., 2023g) fornece conteúdo preciso, mas carece de abrangência e detalhes, deixando de fora ações específicas, como o uso sistemático de uma vassoura para medir a altura de uma árvore.

Para aumentar a precisão das descrições de vídeo, usamos o GPT-4V para legendar os quadros, enquanto o áudio e sua transcrição são do OpenAI Sussurro Modelo. Em seguida, solicitamos ao GPT-4V que criasse resumos de vídeo usando legendas somente de quadros, seguidas de legendas somente de quadros e transcrição de áudio. Inicialmente, observamos que a legenda somente de quadro resultou em eventos fictícios, como alguém mordendo um pedaço de pau no terceiro segmento. Essas imprecisões persistiram nos resumos dos vídeos, como descrições do tipo "em uma reviravolta interessante, ele o mordeu enquanto o segurava horizontalmente". Sem a entrada de áudio, as inteligências não conseguem corrigir esses erros de legenda, resultando em descrições semanticamente corretas, mas visualmente enganosas.

Entretanto, quando fornecemos uma transcrição de áudio a um corpo inteligente, ele pode descrever com precisão o conteúdo e até mesmo capturar movimentos corporais detalhados, como "girar a vassoura perpendicularmente ao corpo e para baixo". Esse nível de detalhe é muito mais informativo, permitindo que o espectador tenha uma compreensão mais clara da finalidade e dos principais detalhes do vídeo. Essas descobertas destacam a importância de integrar interações de áudio, vídeo e verbais para desenvolver inteligências multimodais de alta qualidade, e o GPT-4V serve como uma base promissora para essa compreensão e interação multimodais avançadas.

Inteligências multimodais incorporadas baseadas na GPT-4V.

Conforme mostrado na Figura 27, usamos principalmente o StackOverflow para obter a pergunta inicial e, em seguida, usamos a API "Bing search" para recuperar o vídeo e o áudio relacionados à pergunta. Em seguida, usamos principalmente o GPT-4V para obter informações de texto relevantes e descrições de vídeo de alto nível. Por outro lado, usamos a ASR para converter o áudio de quadros-chave em descrições de fragmentos de baixo nível de quadros-chave. Por fim, usamos o GPT-4V para gerar "ilusões" convincentes que podem ser usadas como consultas negativas difíceis para tarefas de questionamento de vídeo. Oferecemos suporte à interação e às perguntas no quadro atual do vídeo, além de resumir a descrição geral de alto nível do vídeo. Durante o processo de raciocínio, também incorporamos conhecimento externo obtido por meio de pesquisas na Web para aprimorar as respostas.

A seguir, são descritos os principais prompts do GPT-4V. O prompt inteiro está recuado para maior clareza; ele ocupa mais de uma página.

O GPT-4V é um assistente projetado para fornecer detalhes descritivos, informativos e abrangentes em vídeos para pessoas com deficiência visual que podem ouvir o vídeo, mas não vê-lo. Esse trabalho é feito sintetizando anotações fornecidas e gerando-as como JSON para criar descrições de vídeo densas e de alta qualidade. Especificamente, o GPT-4V receberá a consulta original usada para pesquisar o vídeo, o título do vídeo, a descrição, a transcrição do áudio e as descrições com possíveis ruídos em momentos específicos do vídeo. Diferentes segmentos do mesmo vídeo são anotados como "[tempo inicial - tempo final (em segundos)] 'texto'". Uma combinação de transcrições e descrições é usada para inferir os detalhes exatos e a apresentação visual do que pode estar acontecendo no vídeo. O GPT-4V combinará ou dividirá os registros de data e hora conforme necessário para fornecer a segmentação ideal do vídeo.

Expectativas para a saída do GPT-4V:

Descrições orientadas para a ação: priorize ações plausíveis, movimentos e demonstrações físicas com áudio, enriquecendo sua narrativa com dicas visuais dinâmicas.
Cobertura completa do vídeo: fornece uma experiência de audiodescrição contínua e consistente que abrange todos os momentos do vídeo, garantindo que nenhum conteúdo seja deixado de fora.
Segmentação sucinta: crie suas descrições em segmentos focados e sucintos de 1 a 2 frases cada para transmitir efetivamente a ação visual sem entrar em muitos detalhes.
Síntese audiovisual contextual: combinação perfeita de conteúdo de áudio verbal com elementos visuais inferidos para formar uma narrativa que reflita a atividade subjacente na tela.
Especulação imaginativa e plausível: infunda suas descrições com detalhes visuais criativos, mas plausíveis, que correspondam ao áudio para melhorar a compreensão da cena.
Correspondência precisa de código de tempo: alinhe seus trechos descritivos com o código de tempo correspondente, garantindo que os detalhes visuais presumidos estejam sincronizados com a linha do tempo da narrativa em áudio.
Apresentação confiante da narrativa: apresentar descrições com confiança, como se a visualização presumida estivesse acontecendo, para gerar confiança no ouvinte.
Omitir detalhes irracionais: excluir descrições de objetos ou eventos que não se encaixam razoavelmente no contexto estabelecido pelas informações visuais e de áudio.

O resultado final deve ser estruturado no formato JSON, contendo uma lista de dicionários, cada um detalhando um segmento do vídeo.

['start': , 'end': , 'text': ""]

Para a criação de MC: nossa tarefa é criar perguntas de múltipla escolha para uma tarefa de recuperação de vídeo para texto que possa ser facilmente resolvida com a leitura do título e da transcrição do áudio. Para isso, obteremos a consulta original usada para obter o vídeo, a descrição, a transcrição do áudio e uma descrição potencialmente ruidosa de um momento específico do vídeo.

Formato para transcrição de áudio: - [tempo de início e fim em segundos] "Transcribe" (Transcrever)
Formato da descrição ruidosa: - [tempo em segundos] "description"

Pedimos ao GPT-4V que gere quatro consultas, sendo que a consulta principal está alinhada ao conteúdo do vídeo e as outras três consultas negativas são ligeiramente diferentes da nossa consulta principal. A seleção da consulta principal não deve envolver apenas ouvir a transcrição do áudio, por exemplo, quando a consulta original textual estiver incluída na transcrição do áudio. As consultas negativas devem estar intimamente relacionadas, mas não totalmente alinhadas ao conteúdo do vídeo, e exigem uma compreensão visual do vídeo para distingui-las. Por exemplo, modifique a semântica de forma sutil para que seja necessário assistir ao vídeo em vez de apenas ouvir para selecionar a consulta original. Compile quatro consultas em declarações semelhantes a legendas, sendo que a primeira consulta é a consulta original reformulada.

Pense passo a passo sobre como usar as informações do vídeo para formular declarações negativas. E prove que as consultas negativas são incorretas, mas ainda assim são escolhas convincentes que exigem uma compreensão cuidadosa do vídeo. E como os humanos não escolhem acidentalmente a consulta negativa em vez da consulta original.

Por fim, apresentamos esse trabalho na forma da análise e das 4 consultas a seguir. Não há necessidade de gerar como você traduz as consultas originais.

Análise de vídeo: xxx
Consultas: [query1, query2, query3, query4]
Motivo: xxx

6.6 Intelligentsia para processamento de linguagem natural (NLP)

6.6.1 Modelo de linguagem grande (LLM) Intelligentsia

Reconhecer e agir de acordo com as instruções da tarefa tem sido um desafio fundamental na IA interativa e no processamento de linguagem natural há décadas. Com os recentes avanços na aprendizagem profunda, há um interesse crescente em trabalhar em conjunto nessas áreas para melhorar a colaboração entre humanos e computadores. Identificamos três direções específicas, além de outras, para aprimorar as inteligências baseadas em linguagem:

Uso de ferramentas e consultas da base de conhecimento. Essa direção enfatiza a importância da integração de bases de conhecimento externas, pesquisas na Web ou outras ferramentas úteis no processo de raciocínio das inteligências de IA. Ao utilizar dados estruturados e não estruturados de diversas fontes, as inteligências podem aprimorar sua compreensão e fornecer respostas mais precisas e contextualmente relevantes. Além disso, ela promove a capacidade das inteligências de buscar informações de forma proativa quando confrontadas com situações ou consultas desconhecidas, garantindo assim uma resposta mais abrangente e informada. Exemplos incluem Toolformer Schick et al. (2023) e Retrieve What You Need Wang et al. (2023g).
Raciocínio e planejamento corporais inteligentes aprimorados. Aprimorar os recursos de raciocínio e planejamento das inteligências é essencial para uma colaboração eficaz entre homem e máquina. Isso envolve o desenvolvimento de modelos capazes de compreender comandos complexos, inferir a intenção do usuário e prever possíveis cenários futuros. Isso pode ser feito pedindo às inteligências que reflitam sobre ações e falhas passadas, como no ReAct Yao et al. (2023a), ou construindo os processos de pensamento das inteligências como uma forma de pesquisa Yao et al. (2023b). Ao modelar diferentes resultados e avaliar as consequências de várias ações, as inteligências podem tomar decisões mais informadas e contextualmente relevantes.
Integração de sistemas e feedback humano. Em geral, as inteligências de IA podem operar em dois ambientes principais: um que forneça sinais claros sobre a eficácia de suas ações (feedback do sistema) e outro que trabalhe com humanos que possam fazer críticas verbais (feedback humano). Essa direção enfatiza a necessidade de mecanismos de aprendizado adaptativo que permitam que as inteligências aprimorem suas estratégias e corrijam erros, por exemplo, no AutoGen Em Wu et al. (2023). A capacidade de aprender e se adaptar continuamente a partir de várias fontes de feedback garante que as inteligências permaneçam úteis e consistentes com as necessidades dos usuários.

6.6.2 Modelo genérico de linguagem grande (LLM) Intelligentsia

O reconhecimento e a compreensão do conteúdo corporal inteligente e da linguagem natural têm sido um desafio fundamental na IA interativa e no processamento de linguagem natural há décadas. Com os recentes avanços na aprendizagem profunda, há um interesse crescente em estudar essas duas áreas juntas para obter uma compreensão mais profunda do planejamento corporal inteligente ou do feedback humano para raciocínio de conhecimento e geração de linguagem natural. Esses são os principais componentes de muitas inteligências de HCI, como "AutoGen" Wu et al. (2023) e "Retrieve What You Need" Wang et al. (2023g).

6.6.3 As instruções seguem as inteligências do Modelo de Linguagem Ampla (LLM)

Além disso, a criação de inteligências LLM que possam ser treinadas para seguir efetivamente as instruções humanas tornou-se uma importante área de pesquisa. Os modelos iniciais usavam feedback humano para treinar modelos de recompensa de agentes para imitar as preferências humanas por meio de um processo chamado Reinforcement Learning Based on Human Feedback (RLHF), Ouyang et al. (2022). Esse processo gera modelos como o InstructGPT e o ChatGPT. Para treinar instruções de forma mais eficiente para seguir as inteligências LLM sem a necessidade de rotulagem humana, os pesquisadores desenvolveram um método de ajuste fino de instruções mais eficiente que treina inteligências LLM diretamente em pares de instrução/resposta gerados por humanos, por exemplo, Dolly 2.0 ^5^^^5^Dolly 2.0 Blog Post Link ou derivados automaticamente do LLM, por exemplo, Alpaca Taori et al. (2023). Mostramos o processo geral de treinamento do Alpaca na Figura 28.

IA de agente: explorando os limites da interação multimodal-28
Figura 28: Esquema de treinamento usado para treinar o modelo Alpaca Taori et al. (2023). Em um alto nível, os LLMs disponíveis são usados para gerar um grande número de exemplos de acompanhamento de instruções a partir de um pequeno conjunto de tarefas iniciais. Os exemplos de seguimento de instruções gerados são então usados para ajustar as instruções aos LLMs disponíveis para os pesos do modelo subjacente.

IA de agente: explorando os limites da interação multimodal-29
Figura 29: Modelo de corpo inteligente do Transformador Lógico Wang et al. (2023e). Integramos o módulo de raciocínio lógico ao modelo de resumo abstrato baseado no Transformer para capacitar as inteligências lógicas a raciocinar sobre a lógica do texto e do diálogo, permitindo que elas gerem resumos abstratos de maior qualidade e reduzam os erros factuais.

6.6.4 Experimentos e resultados

Apesar da crescente popularidade dos sistemas de conversação e de autofeedback, essas formas de IA ainda têm um desempenho insatisfatório na geração de respostas factualmente corretas a partir de seu próprio conhecimento implícito e, por isso, muitas vezes usam ferramentas externas, como mecanismos de pesquisa na Web e de recuperação de conhecimento, para aumentar suas respostas ao raciocinar. A solução desse problema ajudará a criar uma experiência mais envolvente para os usuários em muitos aplicativos da vida real. Em conversas sociais (por exemplo, em plataformas de mídia social, como Instagram e Facebook) ou em sites de perguntas e respostas (por exemplo, Ask ou Quora), as pessoas geralmente interagem com outras por meio de uma série de comentários e pesquisando na Web informações e conhecimentos relevantes para a discussão. Portanto, a tarefa de gerar rodadas de conversação nesse contexto não é guiada apenas por modelos e tarefas tradicionais de PNL, mas usa inteligências para gerar diálogos por meio de comportamentos inteligentes que refletem a busca e a aquisição de conhecimento, Peng et al. (2023). Dessa forma, as inteligências inteligentes para tarefas de PLN ampliam a descrição da tarefa e melhoram a interpretabilidade da resposta ao adicionar etapas explícitas de busca e recuperação de conhecimento durante o diálogo. A integração dessas inteligências de busca e recuperação na Web como feedback durante um diálogo ajudaria a facilitar ainda mais e mais profundamente as interações sociais entre humanos e inteligências Wang et al. (2023e). Conforme mostrado na Fig. 29, apresentamos um novo paradigma de modelagem para o modelo de linguagem Transformer, que detecta e extrai estruturas lógicas e informações importantes do texto de entrada e, em seguida, as integra aos embeddings de entrada por meio de uma projeção lógica hierárquica elaborada em várias camadas para infundir as estruturas lógicas no modelo de linguagem pré-treinado como uma inteligência de PNL. 2023e) propuseram uma nova abordagem para criar um modelo de linguagem Transformer por meio de uma combinação de detecção lógica, mapeamento lógico e projeção lógica em camadas para oIncorporação de entrada com reconhecimento lógicoO novo modelo pode então ser desenvolvido para atualizar todos os modelos de linguagem do Transformer existentes para oTransformador lógicopara melhorar consistentemente seu desempenho. As inteligências de transformação lógica propostas alcançam consistentemente um desempenho melhor do que seus modelos de transformação de linha de base por meio de uma compreensão mais profunda da estrutura lógica do texto. Para os usuários humanos, muitas vezes esses aspectos são mais importantes para proporcionar diálogos significativos e interessantes por meio da coordenação de inteligências entre o diálogo e a recuperação de informações. Aprofundando-se mais no processamento de linguagem natural, este tópico discutirá os avanços e as classificações para tornar os LLMs mais inteligentes e mais adequados a uma variedade de tarefas centradas na linguagem.

Os sistemas de perguntas e respostas (QA) de domínio aberto geralmente seguem o modeloPesquisar e depois lerO paradigma no qualretrieveré usado para recuperar passagens relevantes de um grande corpus e, em seguidaleitor (software)gerando respostas com base em passagens recuperadas e perguntas originais. Em Wang et al. (2023g), propomos uma estrutura simples e inovadora para o aprendizado mútuo por meio de uma estrutura denominadaseletor de conhecimentoMódulos intermediários para aprimoramento das inteligênciasPesquisar e depois lerpara melhorar o desempenho do modelo de estilo, usamos o aprendizado por reforço para treinar o módulo. Combinando o modeloseletor de conhecimentotrazerRetrieve then Reader (Recuperar e depois ler)O objetivo desse paradigma é construir um pequeno subconjunto de parágrafos que retenham informações relevantes para a pergunta. Conforme mostrado na Figura 30, as inteligências do seletor de conhecimento são treinadas como um componente de nossa nova estrutura de aprendizado mútuo que treina iterativamente os seletores de conhecimento e os leitores. Adotamos uma abordagem simples e inovadora que usa gradientes de política para otimizar as inteligências do seletor de conhecimento, usando o feedback do leitor para treiná-lo a selecionar um pequeno conjunto de passagens ricas em informações. Essa abordagem evita a busca por força bruta ou a criação manual de heurísticas sem a necessidade de pares de documentos de consulta anotados para supervisão. Mostramos que o treinamento iterativo das inteligências do leitor e do seletor de conhecimento leva a um melhor desempenho de previsão em vários benchmarks públicos de Q&A de domínio aberto.

IA de agente: explorando os limites da interação multimodal-30
Fig. 30: Arquitetura de uma estrutura de aprendizado mútuo proposta para inteligências de PNL Wang et al. (2023g). Em cada época, a fase 1 e a fase 2 são executadas alternadamente. Durante a fase 1, os parâmetros do modelo do leitor são mantidos fixos e somente os pesos dos seletores de conhecimento são atualizados. Por outro lado, durante a fase 2, os parâmetros do modelo de leitor são ajustados, mantendo os pesos dos seletores de conhecimento congelados.

7 IA de agente em várias modalidades, domínios e realidades

7.1 Agente para compreensão multimodal

A compreensão multimodal é um grande desafio na criação de um agente de IA de uso geral devido à falta de conjuntos de dados em grande escala contendo visão, linguagem e comportamento do agente. De modo mais geral, os dados de treinamento para agentes de IA geralmente são específicos da modalidade. Isso leva a maioria dos sistemas multimodais modernos a usar combinações de submódulos congelados. Alguns exemplos notáveis são o Flamingo Alayrac et al. (2022), o BLIP-2 Li et al. (2023c) e o LLaVA Liu et al. (2023c), que usam um modelo de linguagem grande (LLM) congelado e um codificador visual congelado. Esses submódulos são treinados individualmente em conjuntos de dados separados e, em seguida, a camada de adaptação é treinada para codificar o codificador visual no espaço de incorporação do Large Language Model (LLM). Para progredir ainda mais na compreensão multimodal dos agentes de IA, a estratégia de usar LLMs e codificadores visuais congelados talvez precise ser alterada. De fato, o recente modelo visual-linguístico RT-2 apresenta ganhos significativos de desempenho ao realizar operações no domínio da robótica ao adaptar conjuntamente o codificador visual e o Large Language Model (LLM) para tarefas robóticas e visuais-linguísticas Brohan et al. (2023).

7.2 Agente para compreensão entre domínios

Um dos principais desafios na criação de um agente genérico é a aparência visual exclusiva e os diferentes espaços de ação em diferentes domínios. Os seres humanos são capazes de interpretar imagens e vídeos de diversas fontes, incluindo o mundo real, videogames e domínios especializados, como robótica e saúde, uma vez que estejam familiarizados com as especificidades desses domínios. No entanto, os modelos de linguagem grande (LLMs) e os modelos de linguagem visual (VLMs) existentes geralmente apresentam discrepâncias significativas entre os dados em que são treinados e os vários domínios em que são aplicados. Em especial, o treinamento de modelos de agentes para prever ações específicas apresenta desafios consideráveis quando se tenta desenvolver uma única estratégia que possa aprender com eficácia vários sistemas de controle em vários domínios. Em geral, a abordagem adotada na maioria dos trabalhos modernos ao aplicar um sistema em um domínio específico é começar com um modelo de base pré-treinado e, em seguida, ajustar um modelo separado para cada domínio específico. Isso não consegue capturar os pontos em comum entre os domínios e resulta em um conjunto total menor de dados para treinamento, em vez de utilizar os dados de cada domínio.

7.3 Agentes interativos para modalidades e realidades cruzadas

O desenvolvimento de agentes de IA que possam compreender e executar tarefas com sucesso em diferentes realidades é um desafio contínuo, com algum sucesso recente na geração de imagens e cenas Huang et al. (2023a). Em particular, é um desafio para os agentes entenderem os ambientes do mundo real e da realidade virtual devido às diferenças visuais e às propriedades físicas independentes dos ambientes. No contexto da realidade cruzada, a migração de simulação para realidade é uma questão particularmente importante ao usar estratégias treinadas em simulação para processar dados do mundo real, como discutiremos na próxima seção.

7.4 Migração da simulação para a realidade

Técnicas que permitem que modelos treinados em simulação sejam implantados no mundo real. Os agentes incorporados, especialmente aqueles baseados em estratégias de Aprendizado por Reforço (RL), geralmente são treinados em ambientes simulados. Essas simulações não reproduzem exatamente os recursos do mundo real (por exemplo, interferência, luz, gravidade e outras propriedades físicas). Devido a essa diferença entre a simulação e a realidade, os modelos treinados em simulações geralmente têm dificuldade de apresentar bom desempenho quando aplicados ao mundo real. Esse problema é conhecido como o problema da "simulação para a realidade". Há várias abordagens que podem ser adotadas para resolver esse problema:

randomização de domíniosA randomização de domínio é uma técnica para treinar modelos enquanto os parâmetros variam aleatoriamente (por exemplo, aparência do objeto, ruído do sensor e propriedades ópticas) em ambientes simulados para lidar com a incerteza e a variação do mundo real Tobin et al. (2017). Por exemplo, ao treinar habilidades de preensão baseadas em Aprendizado por Reforço (RL), a introdução de aleatoriedade na forma de um objeto pode permitir que a estratégia se adapte a objetos com formas ligeiramente diferentes Saito et al. (2022).
adaptação do domínioAdaptação de domínio ou migração de domínio é uma técnica que preenche a lacuna entre domínios simulados e do mundo real treinando um modelo usando um grande número de imagens simuladas e um pequeno número de imagens do mundo real. Em configurações práticas, são usados métodos de conversão de imagem para imagem não pareada, como o CycleGAN Zhu et al. (2017b), devido à dificuldade de preparar imagens pareadas entre domínios. Existem várias versões aprimoradas do aprendizado por reforço, incluindo o Reinforcement Learning -CycleGAN Rao et al. (2020) e versões aprimoradas do aprendizado por imitação, por exemplo, RetinaGAN Ho et al. (2021).
Simulação aprimoradaA simulação realista é fundamental para a migração da simulação para a realidade. Parte desse trabalho é realizada por meio de técnicas de identificação de sistemas Zhu et al. (2017c); Allevato et al. (2020), com o objetivo de identificar parâmetros de simulação para imitar ambientes do mundo real. Além disso, o uso de simuladores foto-realistas seria eficaz no aprendizado por reforço baseado em imagens Martinez-Gonzalez et al. (2020); Müller et al. (2018); Shah et al. (2018); Sasabuchi et al. (2023).

À medida que os métodos continuam a evoluir, a migração da simulação para a realidade continua sendo um desafio central na pesquisa de agentes incorporados. A pesquisa teórica e empírica é essencial para o avanço dessas técnicas.

8 Aperfeiçoamento contínuo e automático da IA do agente

Atualmente, os agentes de IA baseados em modelos básicos têm a capacidade de aprender com muitas fontes de dados diferentes, o que proporciona uma fonte de dados mais flexível para treinamento. Os dois principais resultados disso são: (1) os dados de interação baseados no usuário e no ser humano podem ser usados para melhorar ainda mais o agente e (2) os modelos básicos existentes e os artefatos de modelos podem ser usados para gerar dados de treinamento. Discutiremos cada um deles em mais detalhes nas seções a seguir, mas observamos que, como os agentes de IA atuais estão associados principalmente a modelos básicos pré-treinados existentes, eles normalmente não aprendem com as interações contínuas com o ambiente. Acreditamos que essa é uma direção futura interessante, e o trabalho preliminar de Bousmalis et al. sugere que os agentes de autoaperfeiçoamento para controle de robôs são capazes de aprender e melhorar continuamente por meio de interações ambientais sem a necessidade de supervisão Bousmalis et al. (2023).

8.1 Dados de interação baseada em humanos

A ideia central do uso de dados de interação baseados em humanos é usar um grande número de interações entre agentes e humanos para treinar e aprimorar o agente para iterações futuras. Há várias estratégias que podem ser usadas para aprimorar um agente por meio da interação humano-humano.

Dados de treinamento adicionaisInteração humano-computador: Talvez a maneira mais simples de usar a interação humano-computador seja usar os próprios exemplos de interação como dados de treinamento para futuras iterações do agente. Normalmente, isso requer uma estratégia de filtragem para distinguir os exemplos de agentes bem-sucedidos dos exemplos de interação malsucedidos. A filtragem pode ser baseada em regras (por exemplo, para atingir algum estado de objetivo final desejado), baseada em modelos (por exemplo, para categorizar interações bem-sucedidas versus interações malsucedidas) ou selecionada manualmente após inspeção post-hoc e/ou modificação dos exemplos de interação.
Aprendizagem de preferências humanasDurante a interação com o usuário, o sistema do agente pode solicitar ao usuário várias saídas de modelos diferentes e permitir que o usuário escolha a melhor saída. Isso é normalmente usado para modelos de linguagem grandes (LLMs) como ChatGPT e GPT-4, em que o usuário pode selecionar uma saída (dentre várias) que melhor corresponda às suas preferências.
Treinamento de segurança (exercício da equipe vermelha)Exercício de equipe vermelha: Um exercício de equipe vermelha no contexto da IA de agente refere-se a ter uma equipe adversária dedicada (humana ou computadorizada) que tenta explorar e expor pontos fracos e vulnerabilidades em um sistema de IA de agente. Embora sejam adversários por natureza, os exercícios da equipe vermelha são frequentemente usados como um meio de entender como melhorar as medidas de segurança da IA e reduzir a ocorrência de resultados prejudiciais. O princípio fundamental é descobrir maneiras consistentes de induzir resultados indesejados do agente para que os modelos possam ser treinados em dados que corrijam explicitamente esse comportamento.

8.2 Dados gerados pelo modelo básico

Como o setor acadêmico e o setor geraram artefatos de modelos de base robustos, foram desenvolvidos métodos para extrair e gerar dados de treinamento significativos a partir desses artefatos, usando uma variedade de técnicas de sinalização e emparelhamento de dados.

Ajuste de instruções do modelo de linguagem grande (LLM)O método de geração de instruções de modelos de linguagem grandes (LLMs) que seguem os dados de treinamento possibilita o ajuste fino de modelos de código aberto menores com base nos resultados de LLMs proprietários maiores Wang et al. Por exemplo, Alpaca Taori et al. (2023) e Vicuna Zheng et al. (2023) baseiam-se na família LLaMA de Touvron et al. (2023) de modelos de linguagem grandes (LLMs) de código aberto, que foram ajustados com base em uma variedade de resultados do ChatGPT e de participantes humanos. Essa abordagem de ajuste de instruções pode ser vista como uma forma de destilação de conhecimento, em que os LLMs (Large Language Models) maiores atuam como modelos de professores para os alunos menores. É importante ressaltar que, embora tenha sido demonstrado que o ajuste de instruções do Modelo de Linguagem Grande (LLM) pode transferir o estilo de escrita e algumas habilidades de acompanhamento de instruções do modelo do professor para o modelo do aluno, ainda há uma lacuna significativa entre a autenticidade e a competência do modelo do professor e do modelo do aluno Gudibande et al. (2023).
Pares visuais-verbaisO LLaVA Liu et al. (2023c), por exemplo, usou 150.000 exemplos de comportamentos de seguimento de comandos a partir de entradas textuais e visuais, que foram geradas principalmente pelo Large Language Model (LLM). Por exemplo, o LLaVA Liu et al. (2023c) utilizou 150.000 exemplos de comportamentos de seguimento de comandos a partir de entradas textuais e visuais, que foram geradas principalmente pelo Large Language Model (LLM). Outros trabalhos mostraram que a rotulagem de imagens usando modelos de linguagem visual (VLMs) pode melhorar a qualidade dos dados de treinamento e dos modelos de geração de imagens subsequentes. No campo da compreensão de vídeo, a reclassificação de vídeos usando modelos de linguagem visual (VLMs) e modelos de linguagem grande (LLMs) demonstrou melhorar o desempenho e a qualidade dos modelos de linguagem visual (VLMs) subsequentes treinados em vídeos reclassificados Wang et al.

9 Conjuntos de dados e tabelas de classificação de agentes

Para acelerar a pesquisa nessa área, propomos dois benchmarks para jogos com vários agentes e tarefas de linguagem visual baseadas em agentes, respectivamente. Lançaremos dois novos conjuntos de dados - "CuisineWorld" e "VideoAnalytica" - bem como um conjunto de modelos de linha de base. -Além de um conjunto de modelos de linha de base, os participantes são incentivados a explorar novos modelos e sistemas e enviar seus resultados para o conjunto de testes de nossa tabela de classificação.

9.1 O conjunto de dados "CuisineWorld" para jogos multiagentes

O CuisineWorld é um jogo baseado em texto semelhante ao Overcooked! Ele fornece uma plataforma para que agentes orientados por IA cooperem e joguem juntos. Esse conjunto de dados testará a eficiência colaborativa de sistemas multiagentes, fornecendo informações sobre a capacidade do Large Language Model (LLM) e de outros sistemas de trabalharem juntos em cenários dinâmicos. Em particular, o conjunto de dados se concentrará em como os agentes entendem os objetivos e como os agentes se coordenam entre si. Esse conjunto de dados oferece suporte a dois modos: um modo de agendamento centralizado e um modo descentralizado. Os participantes podem escolher um modo de jogo e enviar seus resultados para nossa tabela de classificação.

9.1.1 Referências

Para nossa competição, publicaremos um benchmark, o benchmark CuisineWorld, que consiste em uma interface textual que inclui um arquivo extensível de definição de tarefas e uma interface para interação multiagente e interação humano-computador. Apresentamos tarefas de interação de jogos cujo objetivo é gerar estratégias de colaboração multiagentes relevantes e apropriadas que maximizem a eficiência da colaboração. Avaliamos a eficiência da colaboração usando a métrica de avaliação proposta: CoS.

O conjunto de dados "CuisineWorld" foi coletado pela Microsoft, UCLA e Universidade de Stanford. O objetivo da competição é explorar como técnicas de interação diferentes, existentes e novas, baseadas no Large Language Model (LLM) subjacente, operam nesse benchmark e estabelecer uma linha de base robusta para as tarefas de uma infraestrutura de jogos com vários agentes.

O conjunto de dados do CuisineWorld inclui:

Um conjunto bem definido de tarefas de colaboração multiagente.
Um sistema de API para facilitar as interações do agente.
Um sistema de avaliação automatizado.

(O link para download do conjunto de dados será fornecido em breve e este artigo será atualizado para incluí-lo aqui).

9.1.2 Tarefas

Fornecemos um conjunto de dados e benchmarks associados, chamado Microsoft MindAgent, e, consequentemente, liberamos um conjunto de dados "CuisineWorld" para a comunidade de pesquisa.
Forneceremos padrões de referência para avaliar e classificar os algoritmos MindAgent enviados. Também forneceremos resultados de linha de base gerados com o uso de infraestrutura popular.

9.1.3 Indicadores e julgamentos

A qualidade da eficiência da colaboração de vários agentes é determinada pela nova métrica automatizada "cos" (do MindAgent Gong et al. (2023a)). A pontuação final da nossa métrica é calculada como a média das métricas de eficiência de colaboração avaliadas pelo sistema multiagente em todas as tarefas. Será solicitado aos avaliadores humanos que classifiquem as respostas individuais e forneçam julgamentos subjetivos sobre o envolvimento, a amplitude e a qualidade geral das interações usuário-agente.

9.1.4 Avaliação

Avaliação automatizadaPlanejamos começar a publicar a tabela de classificação em uma data de lançamento (a ser definida). Planejamos começar a publicar a Tabela de classificação na data de lançamento (a ser definida), na qual os participantes registrados serão solicitados a enviar seus resultados em tarefas relacionadas ao conjunto de dados "CuisineWorld" (o conjunto de dados que estamos divulgando publicamente para a Tabela de classificação). O envio de resultados será encerrado na data final (TBD). Cada equipe deverá enviar os resultados gerados no conjunto de testes para avaliar automaticamente a métrica "cos".
Avaliação manual em nossos gráficos. Os participantes da tabela de classificação precisarão fornecer um arquivo de envio gerado por um script de avaliação local. Usaremos o sistema evalAI para verificar o arquivo de envio e teremos a opção de executar novamente o código para os principais concorrentes do desafio. Portanto, as equipes também devem enviar seu código com um arquivo de autodescrição sobre como executaram o código. A avaliação manual será realizada pela equipe de organização.
Anúncio dos vencedores. Anunciaremos os vencedores e publicaremos as classificações finais dos envios em nossa tabela de classificação.

9.2 Conjunto de dados de pré-treinamento de linguagem de áudio e vídeo.

Apresentamos o VideoAnalytica: uma nova referência para analisar apresentações de vídeo para compreensão. O VideoAnalytica se concentra no uso de apresentações de vídeo como um auxílio para entender melhor o raciocínio complexo e de alto nível incorporado em vídeos instrucionais de formato longo. O objetivo é avaliar os recursos de raciocínio cognitivo dos modelos de linguagem de vídeo, levando-os além das meras tarefas de reconhecimento e compreensão básica para um entendimento mais complexo e diferenciado do vídeo. De forma crucial, o VideoAnalytica enfatiza a integração de várias modalidades (por exemplo, áudio, vídeo e linguagem) e a capacidade dos modelos de aplicar o conhecimento específico do domínio para entender as informações apresentadas no vídeo e interpretá-las. Especificamente, o VideoAnalytica aborda duas tarefas principais:

1.
Recuperação de texto em vídeo: Essa tarefa envolveu a recuperação precisa de texto relevante de um vídeo instrucional. O desafio é diferenciar entre informações relevantes e irrelevantes, exigindo, portanto, uma compreensão profunda do conteúdo do vídeo e a análise da apresentação para recuperar a consulta correta. Para aumentar ainda mais a complexidade dessas tarefas, introduzimos exemplos negativos difíceis gerados pelo Large Language Model (LLM) no conjunto de dados. Validamos manualmente os exemplos negativos gerados e removemos as instâncias que tornam a tarefa inválida e injusta (por exemplo, exemplos negativos são válidos).
2.
Testes informativos assistidos por vídeo: Essa tarefa exige que o modelo responda a perguntas com base em informações extraídas do vídeo. O foco está em perguntas complexas que exigem raciocínio analítico e uma compreensão completa da apresentação do vídeo.

Para facilitar o desenvolvimento de um agente de áudio, vídeo e verbal para analisar a compreensão de vídeos, introduzimos uma tabela de classificação de benchmark para duas tarefas no VideoAnalytica.

Os participantes da tabela de classificação deverão enviar suas soluções para avaliação. A avaliação será baseada no desempenho do modelo em duas tarefas e os resultados serão exibidos na tabela de classificação. Os participantes deverão enviar seu código, bem como uma explicação detalhada de sua abordagem e metodologia.
Considerações éticas: o foco das classificações está na compreensão e interpretação do conteúdo de vídeo, que pode ser usado em vigilância ou em outros aplicativos invasivos da privacidade. Portanto, é fundamental considerar as implicações éticas e o possível uso indevido da tecnologia. Incentivamos os participantes a considerar esses aspectos em seus envios e a promover o uso ético da IA.

10 Declaração de impacto mais ampla

Este documento e nosso fórum associado ^6^^^6^https://multimodalagentai.github.io têm como objetivo ser um catalisador de pesquisas inovadoras, promovendo a colaboração e impulsionando a próxima onda de adoção da IA. Ao nos concentrarmos nas inteligências multimodais, enfatizamos a direção futura da interação humano-computador, das tabelas de classificação e das soluções. Detalhamos três áreas em que estamos fazendo uma contribuição significativa para a comunidade em geral.

Em primeiro lugar, esperamos que nosso fórum leve os pesquisadores de IA a desenvolver soluções orientadas por problemas do mundo real, como jogos, robótica, saúde e compreensão de vídeos de longa duração. Especificamente, o desenvolvimento de inteligências multimodais em jogos poderia transformar o setor de jogos, levando a experiências de jogo mais imersivas e personalizadas. Na robótica, o desenvolvimento de sistemas robóticos adaptativos poderia revolucionar os setores, desde a manufatura até a agricultura, possivelmente solucionando a escassez de mão de obra e aumentando a eficiência. Na área da saúde, o uso de Modelos de Linguagem Ampla (LLMs) e Modelos de Linguagem Visual (VLMs) como inteligências de diagnóstico ou assistentes de atendimento ao paciente poderia levar a diagnósticos mais precisos, melhor atendimento ao paciente e maior acesso a serviços de saúde, especialmente em áreas carentes. Além disso, a capacidade desses modelos de interpretar vídeos longos pode ter uma ampla gama de aplicações, desde o aprimoramento do aprendizado on-line até a melhoria dos serviços de suporte técnico. De modo geral, os tópicos abordados em nossos fóruns terão impactos significativos nos setores e nas pessoas em todo o mundo.

Em segundo lugar, esperamos que o nosso fórum seja um recurso valioso para profissionais e pesquisadores de IA, servindo como uma plataforma para explorar e obter uma compreensão mais profunda dos vários quadros de líderes complexos apresentados pela implementação de inteligências de IA em uma variedade de ambientes e contextos. Essa exploração inclui, por exemplo, a compreensão das limitações específicas e dos riscos em potencial dos sistemas de IA autêntica desenvolvidos para domínios específicos, como diagnósticos de saúde. Nesse domínio, questões como alucinações perigosas no comportamento da IA podem representar riscos significativos, destacando a importância fundamental de projetos e testes cuidadosos. Entretanto, ao considerar as inteligências de IA criadas para o setor de jogos, essas classificações específicas podem ser menos relevantes ou óbvias. Nessas áreas de entretenimento, os desenvolvedores podem priorizar obstáculos diferentes, como a necessidade de a IA realizar uma geração mais aberta e demonstrar criatividade, adaptando-se dinamicamente a cenários de jogos imprevisíveis e às interações dos jogadores. Ao participar do fórum, os participantes terão uma visão de como esses diferentes ambientes determinam o foco e a direção do desenvolvimento da IA e como adaptar melhor as soluções de IA para atender a essas diferentes necessidades e superar as tabelas de classificação relevantes.

Em terceiro lugar, os vários elementos do nosso evento, incluindo apresentações de especialistas, pôsteres informativos e os vencedores de nossas duas tabelas de classificação, foram projetados para fornecer uma visão geral substantiva, mas concisa, das tendências mais recentes e significativas, direções de pesquisa e conceitos inovadores no campo das inteligências multimodais. Essas apresentações resumirão as principais descobertas e desenvolvimentos, revelando novos sistemas, ideias e tecnologias no campo da IA para inteligências multimodais. Essa coleção de conhecimentos não só será benéfica para os participantes do nosso Fórum que desejarem aprofundar sua compreensão e experiência no campo, mas também servirá como um repositório dinâmico e rico de recursos. Os visitantes do site do nosso Fórum podem usar esse repositório de informações para descobrir e entender os avanços de ponta e as ideias inovadoras que impulsionarão o futuro da IA para inteligências multimodais. Nós nos esforçamos para ser uma base de conhecimento útil para novatos e veteranos na área. Ao interagir com esses recursos, esperamos que tanto os participantes quanto os visitantes on-line aprendam sobre as mudanças transformadoras e as novas abordagens que estão moldando o empolgante cenário da IA para inteligências multimodais.

11 Considerações éticas

Os sistemas de IA multimodal têm muitas aplicações. Além da IA interativa, os modelos multimodais fundamentais podem ajudar a impulsionar a geração de conteúdo para robôs e inteligências de IA e auxiliar em aplicativos de produtividade que ajudam na reprodução, parafraseamento, previsão de movimento ou composição de cenas 3D ou 2D. Os avanços fundamentais na IA de corpos inteligentes ajudam a atingir esses objetivos, e muitos se beneficiarão de uma melhor compreensão de como criar modelagem e empatia na realidade simulada ou no mundo real. É provável que muitos desses aplicativos tenham benefícios positivos.

No entanto, essa tecnologia também pode ser explorada por agentes mal-intencionados. Os sistemas inteligentes de IA que geram conteúdo podem ser usados para manipular ou enganar as pessoas. Portanto, é importante que essa tecnologia seja desenvolvida de acordo com as diretrizes de IA responsável. Por exemplo, informar claramente aos usuários que o conteúdo é gerado por sistemas de IA e fornecer aos usuários o controle sobre a personalização desses sistemas. A IA de corpos inteligentes tem o potencial de ser usada para desenvolver novas maneiras de detectar conteúdo manipulador - em parte porque tem as ricas propriedades alucinatórias de um modelo de base grande - e, assim, ajudar a resolver um problema alternativo do mundo real.

Por exemplo, 1) é fundamental que as inteligências de Modelagem de Linguagem Ampla (LLM) e Modelagem de Linguagem Visual (VLM) sejam implantadas de forma ética em tópicos de saúde, especialmente em áreas sensíveis como a saúde. As inteligências de IA treinadas com dados tendenciosos podem exacerbar as disparidades de saúde, fornecendo diagnósticos imprecisos para populações vulneráveis. Além disso, o manuseio de dados confidenciais de pacientes por inteligências de IA levanta sérias questões de privacidade e confidencialidade.2) No setor de jogos, as inteligências de IA podem alterar a função dos desenvolvedores, mudando seu foco da criação de scripts de personagens não jogadores para o aprimoramento do processo de aprendizagem das inteligências. Da mesma forma, os sistemas robóticos adaptativos podem redefinir o papel da manufatura, exigindo novos conjuntos de habilidades em vez de substituir os trabalhadores humanos. Respostas responsáveis a essas mudanças são essenciais para minimizar as possíveis perturbações socioeconômicas.

Além disso, o foco da IA de corpos inteligentes é aprender estratégias colaborativas na simulação, o que é arriscado se as estratégias forem aplicadas diretamente ao mundo real devido ao viés distributivo. Testes robustos e mecanismos de monitoramento contínuo da segurança devem ser estabelecidos para minimizar o risco de comportamento imprevisível em cenários do mundo real. Nosso conjunto de dados "VideoAnalytica" foi coletado da Internet e, como não é uma fonte totalmente representativa, concluímos as análises éticas e os procedimentos legais da Microsoft e da Universidade de Washington. Mesmo assim, precisamos estar cientes de possíveis vieses no corpus. As distribuições de dados podem ser caracterizadas de várias maneiras. Neste workshop, capturamos as diferenças entre a distribuição do nível de inteligência em nosso conjunto de dados e em outros conjuntos de dados existentes. No entanto, há muito mais que pode ser incluído em um conjunto de dados ou workshop. Acreditamos que há necessidade de mais métodos ou discussões que sejam relevantes para a tarefa ou o tópico real e que disponibilizem esses dados ou sistemas.

Dedicaremos uma parte de nosso projeto à discussão dessas questões éticas, à exploração de possíveis estratégias de mitigação e à implementação de inteligências de IA multimodais responsáveis. Com este documento, esperamos ajudar mais pesquisadores a trabalharem juntos para responder a essas perguntas.

12 Declaração de diversidade

Ao investigar a adaptabilidade dos modelos de corpos inteligentes de IA em vários domínios, naturalmente adotamos uma ampla variedade de classificações, perspectivas e soluções. Nesse espírito, nosso projeto visa criar uma comunidade diversificada, explorando uma variedade de tópicos em IA de corpos inteligentes e multimodais.

Com esses princípios em mente, este projeto se concentra em sistemas multimodais avançados que interagem de forma eficaz em ambientes físicos e virtuais e facilitam a interação eficaz com seres humanos. Como tal, pretendemos atrair especialistas e profissionais de uma ampla gama de especializações técnicas, culturas, países e campos acadêmicos para discutir tópicos importantes, incluindo, entre outros, os seguintes:

Aplicação do modelo básico: desenvolvimento de inteligências com modalidades integradas (áudio, imagem, texto, entradas de sensores) com o objetivo de aprimorar seu reconhecimento e resposta a vários aplicativos.
Sistemas genéricos de ponta a ponta: desenvolver modelos de ponta a ponta treinados usando dados em grande escala com o objetivo de criar soluções de IA genéricas e adaptáveis.
Princípio da fundamentação modal: integração de informações de várias modalidades para aumentar a coerência e a eficácia do processamento de dados.
Intuitive human-computer interfaces: developing effective and meaningful interactions between humans and intelligences.
Taming Large Language Models (LLM)/Visual Language Models (VLM): exploração de novas maneiras de abordar problemas comuns em modelos de grande escala, como ilusões e vieses na saída.

Pretendemos ampliar nosso entendimento coletivo sobre o potencial e as limitações da IA para inteligências, aproveitando nossas perspectivas únicas e diversas. Acreditamos firmemente que essa abordagem não apenas enriquecerá as perspectivas individuais, mas também aprimorará o conhecimento coletivo da comunidade e promoverá uma visão geral mais inclusiva do quadro de líderes mais amplo que enfrenta as inteligências de IA multimodais.

Apêndice Detalhes da dica do agente AGPT-4V

Usamos os prompts padrão do sistema do GPT-4V, salvo indicação em contrário. Mostramos em detalhes o processo de solicitação do GPT-4V para um jogo do Minecraft e como geramos as respostas do GPT-4V na Figura 31.

IA de agente: explorando os limites da interação multimodal-12
Figura 31: fornecemos trechos de código para mostrar o processo completo de dica de chamada do GPT-4V para vídeos do Minecraft. Primeiro, codificamos os quadros do vídeo e, em seguida, chamamos o ponto de extremidade do GPT-4V. A resposta do modelo é exibida na parte inferior da tela.

Apêndice BGPT-4V para borda de sangria

O Bleeding Edge é um jogo de combate em terceira pessoa baseado em equipes, no qual os jogadores tentam capturar pontos objetivos ou coletar mais recursos do que a equipe inimiga. Na Figura 32, mostramos exemplos de entradas e saídas ao dar a dica ao GPT-4V para a jogabilidade do Bleeding Edge. Em comparação com o Minecraft, descobrimos qualitativamente que o GPT-4V tem uma compreensão menos completa do conteúdo visual e das regras do jogo. Isso pode ser devido (1) à grande quantidade de dados do Minecraft nos dados de treinamento do GPT-4V e (2) à maior complexidade visual do Bleeding Edge em comparação com o Minecraft.

IA de agente: explorando os limites da interação multimodal-26
Figura 32: O GPT-4V é capaz de gerar conteúdo significativo para jogos como o Bleeding Edge, que tem uma perspectiva de terceira pessoa e cenas visualmente complexas. Para alimentar um grande número de quadros (48) no GPT-4V, alimentamos esses quadros como uma grade e sobrepusemos números de quadros em cada quadro (como mostrado acima).

Apêndice CGPT-4V para o Microsoft Flight Simulator

IA de agente: explorando o mundo da interação multimodal [Fei-Fei Li - Clássico de leitura obrigatória]-1
Figura 33: O GPT-4V pode gerar descrições de conteúdo significativas para jogos do Microsoft Flight Simulator. Enquanto o jogador no simulador de voo está pilotando a aeronave, o agente GPT-4V pode fornecer uma descrição de alto nível da ação, exibindo-a por meio da visão da cabine de comando e da visão externa da aeronave e gerenciando os vários controles e instrumentos de voo para manter a velocidade e a altitude adequadas enquanto navega pelo espaço aéreo virtual. Para inserir um vídeo grande, selecionamos um número de quadros-chave (6 quadros) para enviar ao GPT-4V. Inserimos cada quadro-chave individualmente, sem o uso de uma grade (como mostrado na figura acima).

Conforme mostrado na Figura 33, o agente baseado em GPT-4V fornece uma descrição de alto nível das ações do jogador no Microsoft Flight Simulator. Ele descreve como o jogador, por meio da visão do cockpit e da visão externa da aeronave, está pilotando a aeronave, gerenciando os vários controles e instrumentos de voo para manter a velocidade e a altitude adequadas, enquanto navega pelo espaço aéreo virtual.

Apêndice DGPT-4V para Assassin's Creed: Odyssey

IA de agente: explorando o mundo da interação multimodal [Fei-Fei Li - Clássico de leitura obrigatória]-4
Figura 34: A GPT-4V é capaz de gerar descrições de conteúdo significativas para o jogo Assassin's Creed: Odyssey. Os agentes baseados na GPT-4V também podem fornecer descrições de ação de alto nível, ou seja, "os personagens da imagem [estão] envolvidos em batalhas noturnas em campanhas históricas, empunhando lanças e utilizando habilidades especiais como "bull rush", lutando contra vários inimigos com indicadores de nível, enquanto gerenciam seus valores de vida e habilidade em uma ação em terceira pessoa Gerenciando seus valores de vida e habilidade em um jogo de RPG de ação em terceira pessoa". Para inserir um vídeo grande, selecionamos um número de quadros-chave (8 quadros) para enviar ao GPT-4V. Inserimos cada quadro-chave individualmente, sem usar uma grade (como mostrado na imagem acima).

Conforme mostrado na Figura 34, o agente GPT-4V fornece uma descrição de ação de alto nível do personagem na imagem, ou seja, o personagem está envolvido em batalhas noturnas em uma campanha histórica, empunhando uma lança e utilizando habilidades especiais como "bull rush", lutando contra vários inimigos com indicadores de nível e gerenciando seus valores de vida e habilidade em um jogo de RPG de ação em terceira pessoa. O GPT-4V também mostra o jogador envolvido em um cenário de combate corpo a corpo em larga escala, controlando um personagem com detalhes vermelhos na armadura e sendo solicitado a usar a habilidade "bull rush" com base nas instruções na tela. O ambiente é escuro e cheio de chamas, o que sugere um campo de batalha, e o personagem do jogador está enfrentando vários inimigos com indicadores de nível e barras de sangue no alto da tela. A ação faz parte de um tutorial ou de uma sequência de combate em que o jogador aprende e executa habilidades de combate.

Apêndice EGPT-4V para Gears of War 4

IA de agente: explorando os limites da interação multimodal-11
Figura 35: O GPT-4V é capaz de gerar descrições de conteúdo significativas para o jogo Gears of War 4. O agente GPT-4V fornece uma descrição de alto nível da ação, ou seja, o jogador está participando de um cenário de combate em um ambiente futurista visualmente rico que lembra um complexo industrial ou militar. O personagem, vestido com uma armadura e equipado com armas de fogo, está navegando pela área, usando sistemas de cobertura e mira para enfrentar o inimigo. As ações capturadas incluem o personagem do jogador mirando por trás de uma cobertura, atirando nos inimigos, sofrendo danos (conforme indicado por sinais visuais na tela) e entrando em combate corpo a corpo. O ambiente é marcado pela iluminação noturna, com fontes de luz artificial destacando áreas ou ações de interesse. Em determinados momentos, o personagem do jogador aparece como uma silhueta transparente, o que pode indicar uma habilidade especial ou um estado temporário, como invencibilidade ou furtividade. Para inserir um vídeo grande, selecionamos um número de quadros-chave (10 quadros) para enviar ao GPT-4V. Inserimos cada quadro-chave individualmente, sem o uso de uma grade (como mostrado acima).

Conforme mostrado na FIG. 35, com base na sequência de vídeo de 10 quadros fornecida, o agente GPT-4V pode fornecer uma descrição geral dos movimentos do jogador no videogame:

"O jogador navega com o personagem por um ambiente industrial à noite, escondendo-se estrategicamente atrás de vários objetos, como caixas e paredes. O personagem está armado com armas e enfrenta as entidades inimigas. O jogador usa armas de fogo e também pode usar ataques corpo a corpo, conforme mostrado em Close Quarters Combat. Ele parece estar gerenciando seus valores de munição e vida, conforme indicado por sinais visuais na tela (como indicadores vermelhos piscantes, que geralmente indicam que o personagem está sofrendo dano).

Além disso, o jogador parece estar se movendo taticamente, alternando entre diferentes posições de cobertura para avançar ou se defender dos inimigos. Em algum momento, os escudos parecem ser ativados, o que sugere que o jogador está respondendo ao fogo que chega usando recursos de defesa. Os personagens também parecem estar recarregando suas armas, o que sugere um elemento de gerenciamento de recursos durante o combate. Os efeitos de sangue e impacto indicam acertos bem-sucedidos nos inimigos.

O personagem do jogador coopera com aliados, pois outros personagens podem ser vistos nas proximidades e estão envolvidos em ações de combate semelhantes. Há elementos interativos no ambiente, como barris explosivos, que o jogador pode usar a seu favor.

Os cenários retratam ação em ritmo acelerado com foco em movimento estratégico, tiro e consciência situacional para superar os adversários e potencialmente atingir objetivos específicos no jogo."

Apêndice FGPT-4V para The Starry Sky (O céu estrelado)

IA de agente: explorando o mundo da interação multimodal [Fei-Fei Li - Clássico de leitura obrigatória]-1
Figura 36: Capacidade do GPT-4V de gerar descrições de conteúdo significativas para o jogo Stars Hollow do console X-Box. O agente GPT-4V fornece descrições de alto nível da ação nesse jogo de exploração com tema espacial. Para inserir um vídeo grande, selecionamos um número de quadros-chave (10 quadros) para enviar ao GPT-4V. Inserimos cada quadro-chave individualmente, sem o uso de uma grade (como mostrado na figura acima).

Conforme mostrado na Figura 36, com base na sequência de vídeo de 10 quadros fornecida para o Stars, o agente GPT-4V fornece uma descrição geral das ações do jogador no videogame. De acordo com o GPT-4V, "A imagem retrata uma sequência de eventos no jogo Stars, mostrando as interações do jogador no ambiente de mineração. A seguir, uma descrição da sequência:

O jogador está em uma caverna subterrânea mal iluminada com estalactites ao lado de outro personagem com equipamento espacial. Eles estão diante de um waypoint destacado que indica um objetivo ou local de interesse.
O jogador caminha pelo interior de uma indústria, possivelmente uma estação de mineração, e se aproxima de outro personagem. O HUD (Heads-Up Display) mostra uma linha de diálogo para o "Supervisor Lin", o que indica interação com o NPC (personagem não jogador) e, possivelmente, um briefing ou atualização da missão.
O jogador parece estar seguindo o NPC Supervisor Lin pelas cavernas, o que dá a entender a parte guiada do jogo, na qual os NPCs direcionam o jogador para locais ou missões específicas.
O diálogo responsável pela floresta sugere um ponto de decisão ou uma atualização de missão que pode orientar os jogadores por meio de novos objetivos relacionados ao recurso "grande veio".
O jogador encontra novamente o Supervisor Lin, que fornece instruções ou informações sobre depósitos de metal, indicando o início de uma missão de mineração ou a exploração de uma nova área.
Nesse quadro, o jogador parece estar observando ou interagindo com uma máquina, e outro personagem, Isabel, indica ações ou diálogos relacionados à operação do dispositivo ou ao trabalho técnico.
O jogador olha para baixo e vê um terreno acidentado e dois objetos brilhantes, que podem representar recursos a serem coletados ou pontos de interesse para a missão.
O jogador examina um recurso específico, identificado como "Beryllium Deposit" (Depósito de Berílio) no visor, indicando que a coleta de recursos ou a atividade de mineração está ocorrendo.
O jogador caminha pela caverna, possivelmente procurando outros recursos ou navegando até o próximo objetivo, como mostrado anteriormente por outro personagem em equipamento espacial.
O jogador está localizado em uma área mais escura da caverna com dois marcadores brilhantes que indicam o caminho ou o ponto do objetivo a ser alcançado.

Em todas as imagens, o jogador parece estar envolvido em uma missão que envolve exploração, interação com NPCs, coleta de recursos e, possivelmente, operação de máquinas em um ambiente de mineração. Os elementos do Heads-up Display, como waypoints, texto de diálogo e atualizações de missão, fornecem contexto para as ações do jogador e os objetivos do jogo."

Perfil do autor

Zane Durante

Candidato a PhD em Ciência da Computação, Universidade de Stanford
E-mail: durante@stanford.edu
Site: https://zanedurante.github.io/
Zane Durante é um estudante de doutorado no Stanford Vision Lab, supervisionado pelo Dr. Fei-Fei Li. Seus interesses de pesquisa incluem compreensão de vídeo, vinculação da visão computacional à linguagem natural e aplicações de inteligência artificial no atendimento hospitalar. Ele está liderando uma colaboração contínua entre a Stanford School of Medicine e o Stanford Vision Lab para desenvolver um conjunto de dados de descrições de linguagem natural de videoclipes de cenas hospitalares. Seu trabalho de doutorado é financiado por uma bolsa de pesquisa de pós-graduação da National Science Foundation.

Qiuyuan Huang

Pesquisador principal da Microsoft Research, Redmond, WA, EUA.
E-mail: qihua@microsoft.com
Site: https://www.microsoft.com/en-us/research/people/qihua/
Qiuyuan Huang é pesquisadora principal do grupo de aprendizagem profunda da Microsoft Research (MSR) em Redmond, WA. Seus interesses de pesquisa atuais se concentram em aprendizagem profunda, multimodalidade e processamento de linguagem natural, especialmente IA de agente para jogos, robótica e saúde; inteligência de raciocínio baseada em conhecimento para IA interativa; computação simbólica neural para inferência; e modelos de base em grande escala para PNL e multimodalidade.

Naoki Wake

Um pesquisador da Microsoft em Redmond, Wash.
E-mail: naoki.wake@microsoft.com
Site: https://www.microsoft.com/en-us/research/people/nawake/
Naoki Wake é pesquisador do Grupo de Pesquisa em Robótica Aplicada da Microsoft. Sua pesquisa atual envolve o desenvolvimento de sistemas de percepção multimodal e sistemas colaborativos de gestos de fala para robôs. Suas pesquisas anteriores abrangem neurociência auditiva, neurorreabilitação e processamento de fala. Naoki recebeu seu B.S. em Engenharia pela Universidade de Tóquio em 2014 e seu Ph.D. em Ciência e Tecnologia da Informação em 2019.

Ran Gong

Estudante de doutorado em Ciência da Computação na UCLA.
E-mail: nikepupu@ucla.edu
Site: https://nikepupu.github.io
Ran Gong é um estudante de doutorado no Laboratório VCLA da UCLA. Sua área de pesquisa está na interseção de robótica, visão computacional, computação gráfica e aprendizado de máquina. Sua pesquisa se concentra na simulação e interação incorporadas com o objetivo de criar comportamentos inteligentes que possam resolver diferentes tarefas em diferentes ambientes e ter a capacidade de colaborar com os seres humanos. Ele recebeu o título de Bacharel em Ciências da Computação e Engenharia pela UCLA.

Jae Sung Park

Estudante de doutorado, Universidade de Washington
E-mail: jspark96@cs.washington.edu
Site: https://homes.cs.washington.edu/~jspark96/
Jae Sung é um estudante de doutorado supervisionado por Yejin Choi e Ali Farhadi. Sua pesquisa se concentra no desenvolvimento de modelos com raciocínio multimodal de senso comum. Ele está interessado em equipar os modelos com fundamentos que coloquem os conceitos linguísticos na modalidade visual e permitam que eles entendam o conteúdo multimídia da mesma forma que os humanos processam as informações visuais. Jae Sung é bacharel em Ciências da Computação pela Universidade da Califórnia, em Berkeley.

Bidipta Sarkar

Graduação na Universidade de Stanford
E-mail: bidiptas@stanford.edu
Site: https://bsarkar321.github.io/
Bidipta Sarkar é estudante de graduação sênior na Universidade de Stanford e membro do Stanford ILIAD Lab. Sua pesquisa se concentra na criação de agentes artificialmente inteligentes que possam interagir com seu ambiente e trabalhar com segurança em conjunto com humanos e outros agentes autônomos.

Rohan Taori

Candidato a PhD em Ciência da Computação, Universidade de Stanford
E-mail: rtaori@cs.stanford.edu
Site: https://www.rohantaori.com/
Rohan Taori é estudante de doutorado no Laboratório de Inteligência Artificial da Universidade de Stanford. Sua pesquisa se concentra nos fundamentos do aprendizado de máquina no contexto de sistemas do mundo real. Recentemente, Rohan ampliou as fronteiras dos modelos de linguagem de grande porte de código aberto, ajustando-os para serem assistentes úteis de uso geral. Rohan também está interessado em aumentar os modelos de linguagem de grande porte com recursos multimodais, permitindo que eles raciocinem sobre imagens e vídeos.

Yusuke Noda

Engenheiro de software principal da Microsoft Gaming, Redmond, WA.
E-mail: yusuke.noda@microsoft.com
Site: https://www.linkedin.com/in/yusuke-noda-908797/
Yusuke Noda é engenheiro de software principal da plataforma de jogos da Microsoft. Ele liderou o desenvolvimento da infraestrutura de jogos para Xbox One e Xbox Cloud Gaming e tem mais de 16 anos de experiência no desenvolvimento de infraestrutura eficiente para tecnologias de jogos e nuvem.

Demetri Terzopoulos

Professor ilustre da UCLA, cientista da computação e empresário ganhador do Oscar.
E-mail: dt@cs.ucla.edu
Site: https://web.cs.ucla.edu/~dt/
O Dr. Demetri Terzopoulos é professor ilustre e professor de Ciência da Computação da UCLA, onde dirige o Laboratório de Visão e Computação Gráfica da UCLA. Ele também é cofundador e cientista-chefe da VoxelCloud, Inc., uma empresa multinacional de IA na área de saúde. Ele é ou foi Guggenheim Fellow, Fellow da Royal Society of London (FRS) e da Royal Society of Canada (FRSC), Fellow da Association for Computing Machinery (ACM), Life Member do Institute of Electrical and Electronics Engineers (IEEE), Fellow da Asia Pacific Association for Artificial Intelligence (AAIA), Distinguished Fellow do International Institute of Engineering and Technology (IETI), Fellow da European Academy of Sciences (EAS) e da New York Academy of Sciences (NYAS). A Academia Europeia de Ciências (EAS) e a Academia de Ciências de Nova York (NYAS), além de ser membro vitalício da Sigma Xi.

Yejin Choi

Wisnner-Slivaka Chair e Brett Helsel Professor da Universidade de Washington, Gerente Sênior de Pesquisa e MacArthur Fellow do Allen Institute for Artificial Intelligence.
E-mail: yejin@cs.washington.edu
Site: https://homes.cs.washington.edu/~yejin/
Yejin é presidente da Wisnner-Slivaka Chair e professora de Brett Helsel na Universidade de Washington e gerente sênior de pesquisa no Allen Institute for Artificial Intelligence. Ela recebeu o prêmio Anita Borg Early Career Award em 2018. Recebeu uma bolsa de estudos da MacArthur Fellows Foundation para 2020. Recebeu os prêmios Distinguished Paper Awards da AAAI 2020, Neurips 2021, ICML 2022 e ACL 2023, e os prêmios Best Paper Awards da NAACL 2022 e ACL 2023. Ela é uma das principais organizadoras do COLM 2024, um espaço acadêmico voltado para a pesquisa de modelagem de linguagem. Seus principais interesses de pesquisa são processamento de linguagem natural, aprendizado de máquina e raciocínio de senso comum em inteligência artificial, bem como interesses mais amplos em visão computacional e humanidades digitais.

Fei-Fei Li

Professor de Ciência da Computação, Universidade de Stanford
E-mail: feifeili@stanford.edu
Site: https://profiles.stanford.edu/fei-fei-li/
Fei-Fei é a primeira professora da Sequoia no Departamento de Ciência da Computação da Universidade de Stanford e codiretora do Instituto de Inteligência Artificial Centrada no Ser Humano de Stanford. Ela atuou como diretora do Laboratório de Inteligência Artificial de Stanford de 2013 a 2018. Durante seu período sabático em Stanford, de janeiro de 2017 a setembro de 2018, a Dra. Lee atuou como vice-presidente no Google e como cientista-chefe de inteligência artificial/aprendizado de máquina no Google Cloud. Desde então, ela atuou como membro do conselho ou consultora de várias empresas públicas e privadas.

Katsushi Ikeuchi

Gerente de Pesquisa Principal Sênior da Microsoft e Membro Vitalício do IEEE. Microsoft Research, Redmond, Washington, EUA. Membro vitalício do IEEE.
E-mail: katsuike@microsoft.com
Site: https://www.microsoft.com/en-us/research/people/katsuike/
O Dr. Katsushi Ikeuchi obteve seu B.S. em Engenharia Mecânica pela Universidade de Kyoto em 1973 e seu Ph.D. em Engenharia da Informação pela Universidade de Tóquio em 1978. Após três anos no Laboratório de Inteligência Artificial do MIT, cinco anos no Laboratório de Tecnologia Eletrônica do Ministério do Comércio Internacional e da Indústria do Governo Japonês, 10 anos no Instituto de Robótica da Universidade Carnegie Mellon e 19 anos no Instituto de Ciências Industriais da Universidade de Tóquio, ele ingressou na Microsoft como Pesquisador Principal em 2015. Durante seu período na CMU e na Universidade de Tóquio, ele supervisionou mais de 50 estudantes de doutorado.

Seus interesses de pesquisa abrangem visão computacional, robótica e computação gráfica. Ele recebeu vários prêmios de melhor artigo nessas áreas de pesquisa, incluindo o David Marr Award in Computational Vision e o IEEE Robotics and Automation Society K. S. Fu Memorial Best Paper Award.

Seus serviços comunitários incluem: Presidente Geral do IROS95, ITSC99, IV01, ICCV05, ACCV07, ICCV17; Presidente do Programa do CVPR96, ICCV03, ICRA09, ICPR12, ICCV15; EIC do IJCV (2000-2017), EIC do IJ ITS (2012-2014), Editor Associado do IEEE Trans. EIC do IJCV (2000-2017), EIC do IJ ITS (2012-2014), Editor Associado do IEEE Trans. RA, IEEE Trans. PAMI; e Conferencista Distinto da IEEE Signal Processing Society 2000-2002, IEEE Robotics and Automation Society 2004-2006 e IEEE Computer Society 2008-2010.

Por meio dessa pesquisa e do serviço comunitário, ele recebeu bolsas de estudo (vitalícias) do IEEE, IEICE, IPSJ e RSJ. Recebeu o Distinguished Researcher Award do IEEE-PAMI, a Medal with Purple Ribbon do Imperador do Japão, o Okawa Prize da Okawa Foundation e vários prêmios por realizações de pesquisa de associações profissionais japonesas.

Hoi Vo

Bolsista de Tecnologia. Microsoft Games e X-Box Emerging Technologies, Redmond, WA, EUA.
E-mail: hoiv@microsoft.com
Site: https://www.linkedin.com/in/hoi-vo-193420/
Hoi Vo é Pesquisador Técnico na Divisão de Jogos da Microsoft, com foco na integração da AGI com o novo IP de jogos. Ele desempenhou um papel fundamental na criação do serviço Xbox Cloud Gaming e liderou os esforços de jogos e nuvem nas equipes da Microsoft, incluindo a plataforma Windows Azure da Microsoft. Seu foco é otimizar os modelos de IA para que sejam executados com eficiência na borda e, ao mesmo tempo, aproveitar a nuvem para lidar com cenários além dos recursos do hardware, incluindo modelos de ajuste fino para torná-los mais atraentes para uma variedade de experiências de jogos.

Jianfeng Gao

Cientista renomado e vice-presidente da Microsoft e membro do IEEE. Microsoft Research, Redmond, WA, EUA; membro do IEEE.
E-mail: jfgao@microsoft.com
Site: https://www.microsoft.com/en-us/research/people/jfgao/
O Dr. Jianfeng Gao é um cientista renomado e vice-presidente da Microsoft Research, membro do IEEE, membro renomado da ACM e atual chefe do Deep Learning Group da Microsoft Research. Gerente de pesquisa de parceiros de IA. Ele liderou o desenvolvimento de soluções preditivas de IA de vendas e marketing. Ele também trabalhou com aprendizagem profunda para processamento de texto e imagem (consulte os tutoriais ACL/SIGIR 2018, tutoriais Deep Learning 2017 e tutoriais IJCAI 2016, ou o site da intranet da Microsoft) e liderou o desenvolvimento de sistemas de IA para diálogo, compreensão de leitura de máquina (MRC) e resposta a perguntas (QA). Desde 2022, ele lidera pesquisas sobre IA de autoaperfeiçoamento que aprimoram e adaptam o LLM (por exemplo, ChatGPT/GPT4) para o desenvolvimento de sistemas comerciais de IA.

uma nota de agradecimento

Somos particularmente gratos a Peter Lee, Doug Burger, Desney Tan, Johannes Gehrke, Ryen White, Ece Kamar, Subhojit Som e Kareem Choudhry por seus conselhos, forte apoio e incentivo. Agradecemos a Haiyan Zhang, Spencer Perreault, Dave Bignell, Katja Hofmann, Sam Devlin, Shanzheng Tan, Raluca Georgescu, Bill Dolan, Nebojsa Jojic, Sudha Rao, Adrian Brown e Andrzej Banburski-Fahey pelas discussões iniciais perspicazes e pela ajuda na jogabilidade. Agradecemos a Kiran Muthabatulla, Antonio Criminisi, Tom Cashman, Nguyen Bach, Jennifer Marsman e Jaron Lanier, da equipe do Microsoft Mesh, Microsoft OCTO e Microsoft Office, por suas contribuições para o trabalho com Realidade Mista, o trabalho com o conjunto de dados e sua generosa ajuda e contribuições para este projeto. Agradecemos a Paul Bennet e a sua generosa ajuda e feedback sobre o projeto. Somos especialmente gratos a Paul Bennett, Corby Rosset, Michel Galley, Chenglong Wang, Baolin Peng, Hao Chen, Silviu Cucerzan, Ahmed Awadallah e Saleema Amershi por suas sugestões e comentários sobre a seção de NLP. comentários sobre a seção de NLP. Os autores agradecem sinceramente a Paul Smolensky, Yonatan Bisk, Kezhen Chen, Borui Wang, Liangke Gui, Dingmin Wang, Xin (Eric) Wang, Zhe Gan, Xiaojian Ma, Zilong Zheng, Song-chun Zhu, Dragomir R. Wang e D. S. Wang pelas sugestões e comentários sobre a seção de NLP. Agradecemos a Zhu, Dragomir R. Radev, Daniel McDuff, Harry Shum, por trabalhos anteriores relacionados, comentários, sugestões, várias revisões meticulosas deste artigo e por sua orientação sobre a literatura. Por fim, agradecemos sinceramente à equipe do Microsoft Holulens, à equipe do Microsoft X-box e à equipe do Meta Quest por fornecerem generosamente os dispositivos; à equipe do MSR Central Engineering (CE) e à equipe do Microsoft 343 pela coleta e compartilhamento de dados; e às equipes do Microsoft AOAI e do GCR pelo suporte ao endpoint do Azure-OpenAI.

Também gostaríamos de agradecer aos nossos colegas da Stanford AI-Assisted Care Partnership, que nos ajudaram a entender os aplicativos médicos explorados neste trabalho. Somos particularmente gratos a Ehsan Adeli, Paul Tang, Amit Kaushal, Roger Bohn, Kevin Schulman e Arnold Milstein por sua experiência e orientação clínica.

Esta pesquisa foi apoiada pela Microsoft Research Project Fair 2023, Microsoft HackBox 2023 e a equipe OCTO.