Агент ИИ: исследование пограничного мира мультимодального взаимодействия [Фэй Фэй Ли - Классика Must Reads].
Агентский ИИ: исследование горизонтов мультимодального взаимодействия.
Оригинал: https://ar5iv.labs.arxiv.org/html/2401.03568
рефераты
Мультимодальные системы искусственного интеллекта, вероятно, будут повсеместно присутствовать в нашей повседневной жизни. Одним из перспективных подходов к повышению интерактивности этих систем является их реализация в виде интеллектов в физических и виртуальных средах. В настоящее время системы используют существующие базовые модели в качестве основных строительных блоков для создания воплощенных интеллектов. Встраивание интеллектов в такие среды способствует повышению способности модели обрабатывать и интерпретировать визуальные и контекстуальные данные, что очень важно для создания более сложных и контекстно-ориентированных систем ИИ. Например, система, способная воспринимать поведение пользователя, поведение человека, объекты окружающей среды, аудиоизображения и коллективные эмоции сцены, может использоваться для информирования и управления реакцией интеллектуального тела в данной среде. Чтобы ускорить изучение интеллекта, основанного на мультимодальном интеллекте, мы определяем "Агентский ИИ" как класс взаимодействующих систем, которые могут воспринимать визуальные стимулы, лингвистические данные и другие данные, основанные на окружающей среде, и могут производить осмысленное воплощенное поведение. В частности, мы исследуем системы, направленные на улучшение предсказания интеллекта на основе следующего воплощенного поведения путем интеграции внешних знаний, мультисенсорных данных и обратной связи с человеком. Мы утверждаем, что иллюзия больших базовых моделей и их тенденция к получению экологически неверных результатов также может быть смягчена путем разработки интеллектуальных систем ИИ тела в наземных средах. Развивающаяся область "агентного ИИ" охватывает более широкие аспекты мультимодального взаимодействия, связанные с воплощением и интеллектуальным телом. В дополнение к интеллектам, действующим и взаимодействующим в физическом мире, мы представляем себе будущее, в котором люди смогут легко создавать любые сценарии виртуальной реальности или симуляции и взаимодействовать с интеллектами, встроенными в виртуальную среду.
![Agent AI: 探索多模态交互的边界-1 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/6dbf9ac2da09ee1.png)
Агентный ИИ становится многообещающим путем к общему искусственному интеллекту (ОИИ). Обучение агентного ИИ продемонстрировало способность к мультимодальному пониманию физического мира. Он обеспечивает основу для независимого от реальности обучения за счет использования генеративного ИИ и множества независимых источников данных. При обучении на данных из разных реальностей большие базовые модели, обученные для решения задач, связанных с интеллектом и действиями, могут применяться как в физическом, так и в виртуальном мире. Мы показываем общий обзор системы агентного ИИ, которая может воспринимать и действовать во многих различных областях и приложениях, потенциально являясь путем к AGI с использованием парадигмы интеллектуального тела.
каталог (на жестком диске компьютера)
- 1 вводная
- 1.1 локомотив
- 1.2 контексты
- 1.3 в общих чертах
- 2 Интеграция агентского искусственного интеллекта
- 2.1 Бесконечный искусственный интеллект
- 2.2 Агентский ИИ с использованием крупномасштабных базовых моделей
- 2.2.1 плод воображения
- 2.2.2 Предвзятость и инклюзивность
- 2.2.3 Конфиденциальность и использование данных
- 2.2.4 Интерпретируемость и описательность
- 2.2.5 Улучшение рассуждений
- 2.2.6 надзор
- 2.3 Агентный ИИ для эмерджентных возможностей
- 3 Парадигма агентного ИИ
- 3.1 Большие языковые модели и визуальные языковые модели
- 3.2 Определение интеллектуального тела-трансформера
- 3.3 Создание интеллектуального тела-трансформера
- 4 Обучение агентов искусственному интеллекту
- 4.1 Стратегии и механизмы
- 4.1.1 Обучение с подкреплением (RL)
- 4.1.2 Имитационное обучение (ИО)
- 4.1.3 Обычный RGB
- 4.1.4 Ситуационное обучение
- 4.1.5 Оптимизация в интеллектуальных системах организма
- 4.2 Интеллектуальные системы организма (нулевой и несколько уровней проб)
- 4.2.1 Интеллектуальный модуль кузова
- 4.2.2 Инфраструктура интеллектуального тела
- 4.3 Базовая модель интеллектуального тела (уровни предварительного обучения и тонкой настройки)
- 4.1 Стратегии и механизмы
- 5 Классификация искусственного интеллекта агентов
- 5.1 Домен общего интеллекта
- 5.2 воплощённый интеллект
- 5.2.1 мобильная разведка
- 5.2.2 взаимодействующий интеллект
- 5.3 Моделирование и экологический интеллект
- 5.4 генеративный интеллект
- 5.4.1 AR/VR/смешанная реальность Интеллектуальное тело
- 5.5 Интеллект и логическое мышление
- 5.5.1 Группа интеллектуальной разведки (KIU)
- 5.5.2 логический интеллект
- 5.5.3 Intelligentsia для эмоционального мышления
- 5.5.4 Отдел нейросимволического интеллекта (NSI)
- 5.6 Большое языковое моделирование и визуальное языковое моделирование Интеллигенция
- 6 Прикладные задачи агентского ИИ
- 6.1 Интеллектуальные тела для игр
- 6.1.1 Поведение NPC
- 6.1.2 Взаимодействие человека и NPC
- 6.1.3 Интеллектуальный анализ игры на основе тела
- 6.1.4 Для композитинга игровых сцен
- 6.1.5 Эксперименты и результаты
- 6.2 Робототехника
- 6.2.1 Большая языковая модель/визуальная языковая модель интеллекта для робототехники.
- 6.2.2 Эксперименты и результаты.
- 6.3 здравоохранение
- 6.3.1 Текущий потенциал здравоохранения
- 6.4 мультимодальный интеллект
- 6.4.1 Понимание и создание языков изображений
- 6.4.2 Понимание и создание видео и языков
- 6.4.3 Эксперименты и результаты
- 6.5 Видео - Языковой эксперимент
- 6.6 Intelligentsia для обработки естественного языка
- 6.6.1 Интеллектуальное моделирование большого языка
- 6.6.2 Универсальный интеллект моделирования большого языка (ULM)
- 6.6.3 Большая языковая модель Intelligentsia с поддержкой команд
- 6.6.4 Эксперименты и результаты
- 6.1 Интеллектуальные тела для игр
- 7 Агентский ИИ в различных модальностях, областях и реальностях
- 7.1 Intelligentsia для кросс-модального понимания
- 7.2 Intelligentsia для междоменного понимания
- 7.3 Интерактивная интеллигенция для кросс-модальности и кросс-реальности
- 7.4 Переход от моделирования к реальности
- 8 Непрерывное самосовершенствование ИИ агентов
- 8.1 Данные, основанные на взаимодействии с человеком
- 8.2 Данные, генерируемые базовой моделью
- 9 Наборы данных и таблицы лидеров Smartbody
- 9.1 Набор данных "CuisineWorld" для мультиинтеллектуальных игр
- 9.1.1 эталон
- 9.1.2 мандаты
- 9.1.3 Показатели и суждения
- 9.1.4 оценка
- 9.2 Набор данных для предварительного обучения аудио- и видеоязыкам.
- 9.1 Набор данных "CuisineWorld" для мультиинтеллектуальных игр
- 10 Заявление о более широком воздействии
- 11 этические соображения
- 12 Заявление о разнообразии
- A GPT-4V Интеллектуальное оповещение для тела Подробнее
- B GPT-4V для Bleeding Edge
- C GPT-4V для Microsoft Flight Simulator
- D GPT-4V для Assassin's Creed Odyssey
- E GPT-4V для GEARS of WAR 4
- F GPT-4V для Starfield
1 Введение
1.1 Мотивация
Исторически системы ИИ были определены на Дартмутской конференции в 1956 году как "искусственные формы жизни", способные собирать информацию из окружающей среды и взаимодействовать с ней полезным образом. Вдохновленная этим определением, группа Минского в Массачусетском технологическом институте в 1970 году создала роботизированную систему под названием Replica Demonstration, которая наблюдала за сценарием "блочного мира" и успешно реконструировала наблюдаемую многогранную блочную структуру. Система включала в себя модули наблюдения, планирования и манипулирования, что показало, что каждая подпроблема является сложной и требует дальнейших исследований. Область ИИ разделена на специализированные подпрограммы, которые добились большого прогресса в решении этих и других проблем, но чрезмерное упрощение заслоняет общие цели исследований ИИ.
Чтобы выйти за рамки статус-кво, необходимо вернуться к основам ИИ, основанным на аристотелевском холизме. К счастью, недавние революции в области моделирования больших языков (LLM/Large Language Model) и визуального моделирования языков (VLM/Visual Language Model) позволили создать новые типы интеллектов ИИ, которые соответствуют холистическим идеалам. Используя эту возможность, в данной статье рассматриваются модели, объединяющие лингвистическую компетенцию, визуальное познание, контекстуальную память, интуитивное мышление и адаптивность. В ней рассматривается потенциал использования больших языковых моделей и визуальных языковых моделей для достижения этого целостного синтеза. В ходе нашего исследования мы также возвращаемся к проектированию систем на основе "целевой причины" Аристотеля, то есть телеологической "причины существования системы", которой, возможно, пренебрегали в предыдущих разработках ИИ.
Возрождение обработки естественного языка и компьютерного зрения стало катализатором появления мощных предварительно обученных больших языковых моделей и визуальных языковых моделей. В настоящее время большие языковые модели демонстрируют удивительную способность расшифровывать нюансы реальных лингвистических данных, часто сравнивая или даже превосходя человеческий опыт OpenAI (2023). Недавно исследователи показали, что большие языковые модели могут быть расширены для работы в различных средах, таких какумное телокоторые выполняют сложные действия и задачи в паре со специфическими для данной области знаниями и модулями Xi et al. (2023). Эти сценарии характеризуются сложными рассуждениями, пониманием ролей интеллектов и их окружения, а также многоступенчатым планированием, проверяя способность интеллектов принимать сложные решения в условиях ограниченного окружения Wu et al. (2023); Meta Fundamental AI Research Diplomacy Team et al. (2022) Meta Команда по исследованию дипломатии фундаментального ИИ (FAIR), Бахтин, Браун, Динан, Фарина, Флаэрти, Фрид, Гофф, Грей, Ху и др.
Опираясь на эти первые усилия, сообщество ИИ стоит на пороге серьезного сдвига парадигмы от создания моделей ИИ для использования в пассивных, структурированных задачах к моделям, способным взять на себя роль динамичных, интеллектуальных органов в разнообразных и сложных средах. На этом фоне в данной статье исследуется большой потенциал использования больших языковых моделей и визуальных языковых моделей в качестве интеллигенции, причем особое внимание уделяется моделям, сочетающим лингвистическую компетенцию, визуальное познание, контекстуальную память, интуитивное мышление и адаптивность. Использование больших языковых моделей и визуальных языковых моделей в качестве интеллигенции, особенно в таких областях, как игры, робототехника и здравоохранение, не только обеспечивает строгую платформу для оценки современных систем ИИ, но и предвещает преобразующее воздействие, которое ИИ, ориентированный на интеллигенцию, окажет на общество и промышленность. При полном использовании интеллектуальные модели тела могут переосмыслить человеческий опыт и повысить стандарты работы. Потенциал полной автоматизации этих моделей предвещает кардинальные изменения в промышленности и социально-экономической динамике. Эти достижения будут переплетаться с многогранными лидерами не только в технологическом, но и в этическом плане, о чем мы подробно расскажем в разделе 11. Мы рассмотрим пересекающиеся области этих подполей ИИ интеллектуального тела и проиллюстрируем их взаимосвязь на рисунке 1.
1.2 История вопроса
Сейчас мы представим соответствующие научные работы, подтверждающие концепцию, теоретические предпосылки и современные реализации искусственного интеллекта для интеллектуальных тел.
Крупномасштабные базовые модели.
Большие языковые модели и визуальные языковые модели стали движущей силой усилий по разработке интеллектуальных машин общего назначения (Bubeck et al., 2023; Mirchandani et al., 2023). Хотя они обучаются на больших текстовых массивах, их превосходные возможности решения задач не ограничиваются канонической областью обработки языка. Большие языковые модели способны решать сложные задачи, которые раньше считались прерогативой человеческих экспертов или алгоритмов, ориентированных на конкретную область, - от математических рассуждений (Imani et al., 2023; Wei et al., 2022; Zhu et al., 2022) до ответов на специализированные юридические вопросы (Blair-Stanek et al., 2023; Choi et al., 2023; Nay, 2022). 2023; Nay, 2022). Недавние исследования показали, что с помощью больших языковых моделей можно генерировать сложные планы для роботизированных и игровых ИИ (Liang et al., 2022; Wang et al., 2023a, b; Yao et al., 2023a; Huang et al., 2023a), что является важной вехой в использовании больших языковых моделей в качестве интеллектуальных интеллектов общего назначения.
Воплощенный искусственный интеллект.
В некоторых работах большие языковые модели используются для планирования задач (Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a), в частности, благодаря знаниям о домене в масштабах Всемирной паутины и возникающим воплощенным возможностям больших языковых моделей с нулевой выборкой для планирования и обоснования сложных задач. Последние исследования в области робототехники также используют большие языковые модели для планирования задач (Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022) путем декомпозиции команд на естественном языке в серию подзадач (либо в форме естественного языка, либо в форме кода Python), которые затем выполняются с помощью низкоуровневого контроллера. Кроме того, они включают обратную связь с окружающей средой, чтобы улучшить выполнение задачи (Huang et al., 2022b), (Liang et al., 2022), (Wang et al., 2023a) и (Ikeuchi et al., 2023).
Интерактивное обучение:
ИИ-интеллекты, предназначенные для интерактивного обучения, работают с использованием комбинации методов машинного обучения и взаимодействия с пользователем. Изначально ИИ-интеллекты обучаются на большом наборе данных. Этот набор данных содержит различные типы информации, в зависимости от предполагаемой функции интеллекта. Например, ИИ, предназначенный для решения языковых задач, будет обучаться на большом массиве текстовых данных. Обучение предполагает использование алгоритмов машинного обучения, которые могут включать модели глубокого обучения (например, нейронные сети). Эти модели обучения позволяют ИИ распознавать закономерности, делать прогнозы и генерировать ответы на основе данных, которым он обучен. Интеллектуальные ИИ также могут обучаться в процессе взаимодействия с пользователями в режиме реального времени. Такое интерактивное обучение может происходить несколькими способами: 1) обучение на основе обратной связи: ИИ корректирует свои ответы на основе прямой обратной связи от пользователя Li et al. (2023b); Yu et al. (2023a); Parakh et al. (2023); Zha et al. (2023); Wake et al. (2023a, b, c). Например, если пользователь исправляет ответ ИИ, ИИ может использовать эту информацию для улучшения будущих ответов Zha et al. (2023); Liu et al. (2023a). 2) Наблюдательное обучение: ИИ наблюдает за взаимодействием с пользователем и учится неявно. Например, если пользователь часто задает похожие вопросы или взаимодействует с ИИ определенным образом, ИИ может адаптировать свои ответы, чтобы они лучше соответствовали этим шаблонам. Это позволяет ИИ-интеллектам понимать и обрабатывать человеческий язык, мультимодальные параметры, интерпретировать ситуации кросс-реальности и генерировать ответы от пользователей. Со временем производительность искусственного интеллекта обычно продолжает улучшаться благодаря взаимодействию с пользователем и обратной связи. Этот процесс обычно контролируется человеком-оператором или разработчиком, который следит за тем, чтобы ИИ обучался должным образом и не развивал предубеждения или неправильные шаблоны.
1.3 Обзор
Мультимодальный агентный ИИ (MAA/Multimodal Agent AI) - это набор систем, которые генерируют эффективные действия в заданной среде на основе понимания мультимодальных сенсорных входов. С появлением большой языковой модели (LLM/Large Language Model) и визуальной языковой модели (VLM/Visual Language Model) был предложен ряд систем мультимодального агентного ИИ в различных областях - от фундаментальных исследований до приложений. Хотя эти области исследований быстро развиваются за счет интеграции с традиционными методами в каждой области (например, визуальный вопрос и визуальная языковая навигация), у них есть общие интересы, такие как сбор данных, сравнительный анализ и этические аспекты. В этой статье мы сосредоточимся на некоторых репрезентативных областях исследований ИИ для мультимодальных интеллектов, а именно на мультимодальности, играх (VR/AR/MR), робототехнике и здравоохранении, и наша цель - предоставить исчерпывающие знания об общих проблемах, обсуждаемых в этих областях. Таким образом, мы хотим изучить основы ИИ для мультимодальных интеллектов и получить знания для дальнейшего продвижения своих исследований. Конкретные результаты обучения включают:
- Обзор искусственного интеллекта для мультимодальной интеллигенции: углубленное рассмотрение его принципов и роли в современных приложениях, что дает исследователям полное представление о его важности и применении.
- Методология: На конкретных примерах из игровой индустрии, робототехники и здравоохранения подробно описано, как модели макроязыка и визуальные языковые модели могут улучшить искусственный интеллект мультимодальных интеллектов.
- Оценка эффективности: руководство по оценке мультимодальных интеллектов ИИ с использованием соответствующих наборов данных, с акцентом на их эффективность и способность к обобщению.
- Этические соображения: обсуждение социальных последствий и этической оценки внедрения искусственного интеллекта тела, а также практики ответственной разработки.
- Emerging Trends and Future Charts: классифицирует последние достижения в каждой области и обсуждает будущие направления.
Компьютерные интеллекты общего назначения (GA/Generalist Agent) полезны для решения многих задач. Для того чтобы генералистский интеллектуальный организм был действительно ценен для своих пользователей, он должен взаимодействовать естественным образом и быть обобщенным для широкого спектра контекстов и модальностей. Наша цель - способствовать развитию оживленной исследовательской экосистемы в сообществе ИИ интеллектуальных тел и создать общее чувство идентичности и цели. Мультимодальный интеллектуальный телесный ИИ имеет потенциал для применения в широком диапазоне контекстов и модальностей, включая человеческий ввод. Поэтому мы считаем, что эта область интеллектуального телесного ИИ может привлечь широкий круг исследователей, тем самым способствуя формированию динамичного сообщества интеллектуального телесного ИИ и достижению общих целей. Под руководством известных экспертов из академических и промышленных кругов мы ожидаем, что этот доклад будет интерактивным и обогащающим опытом, включая учебные пособия по интеллектуальному телу, тематические исследования, сессии задач и экспериментальные обсуждения, обеспечивая всесторонний и увлекательный опыт обучения для всех исследователей.
Цель данной статьи - предоставить общие и исчерпывающие знания о современных исследованиях в области искусственного интеллекта для интеллигенции. Для этого оставшаяся часть статьи организована следующим образом. В разделе 2 описывается, как искусственный интеллект для интеллигенции может выиграть от интеграции с соответствующими развивающимися технологиями, в частности с крупномасштабными базовыми моделями. В разделе 3 описывается новая парадигма и структура, которую мы предлагаем для обучения интеллектуального телесного ИИ. В разделе 4 представлен обзор широко используемых методов обучения интеллектуального ИИ. В разделе 5 классифицируются и обсуждаются различные типы интеллекта. В разделе 6 описаны области применения интеллектуального телесного ИИ в играх, робототехнике и здравоохранении. В разделе 7 рассматриваются усилия исследовательского сообщества по разработке ИИ тела общего назначения, который может быть применен к различным модальностям, областям и преодолеть разрыв между симуляцией и реальностью. В разделе 8 обсуждается потенциал интеллектуального ИИ тела, который не только опирается на предварительно обученные базовые модели, но и постоянно учится и совершенствует себя, используя взаимодействие с окружающей средой и пользователем. В разделе 9 описывается наш новый набор данных, предназначенный для обучения мультимодального интеллектуального ИИ тела. В разделе 11 обсуждается актуальная тема интеллектуального ИИ, ограничения и этические соображения, связанные с социальными последствиями нашей работы.
2 Интеграция искусственного интеллекта в интеллектуальное тело
Как указывалось в предыдущих исследованиях, базовые модели на основе моделей макроязыка и визуальных языковых моделей все еще демонстрируют ограниченную производительность в области воплощенного ИИ, особенно в понимании, генерировании, редактировании и взаимодействии в невидимых средах или сценах Huang et al. (2023a); Zeng et al. (2023). В результате эти ограничения приводят к неоптимальной отдаче от интеллектов ИИ. Современные подходы к моделированию ИИ, ориентированного на интеллект, сосредоточены на непосредственно доступных и четко определенных данных (например, текстовых или строковых представлениях состояния мира) и обычно используют независимые от домена и среды шаблоны, полученные в результате их масштабного предварительного обучения, для прогнозирования действий в каждой среде Xi et al. (2023); Wang et al. (2023c); Gong et al. (2023a); Wu et al. (2023). В работе (Huang et al., 2023a) мы исследуем задачу совместной работы на основе знаний и интерактивного генерирования сцен путем объединения больших базовых моделей и показываем многообещающие результаты, свидетельствующие о том, что основанные на знаниях интеллекты больших языковых моделей могут улучшить производительность понимания, генерирования и редактирования 2D- и 3D-сцен, а также других видов человеко-компьютерного взаимодействия (Huang et al., 2023a). ). Благодаря интеграции в структуру ИИ Intelligent Body большая базовая модель способна глубже понимать пользовательский ввод, что приводит к созданию сложных и адаптивных систем человеко-компьютерного взаимодействия. Возникающие возможности больших языковых моделей и визуальных языковых моделей играют невиданную роль в человеко-компьютерном взаимодействии для генеративного ИИ, воплощенного ИИ, дополнения знаний для мультимодального обучения, создания смешанной реальности, редактирования текста в видение и 2D/3D моделирования в играх или задачах робототехники. Недавние достижения в области фундаментального моделирования ИИ разумного тела являются неизбежным катализатором для раскрытия родового интеллекта в воплощенном интеллекте. Крупномасштабные модели действий или визуальные языковые модели интеллекта открывают новые возможности для общих воплощенных систем, таких как планирование, решение проблем и обучение в сложных условиях. Интеллектуальный воплощенный ИИ делает дальнейшие шаги в метавселенной и указывает путь к ранним версиям ИИ общего назначения.
![Agent AI: 探索多模态交互的世界[李飞飞-经典必读]-1 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/2dd99ca44577ecf.png)
Рис. 2: Мультимодальный Smartbody AI для создания и редактирования 2D/3D воплощенных взаимодействий в реальности.
2.1 Бесконечный искусственный интеллект
Искусственный интеллект способен интерпретировать, предсказывать и реагировать на основе обучения и исходных данных. Несмотря на то что эти возможности развиваются и совершенствуются, важно признавать их ограничения и влияние исходных данных, на которых они обучаются. Интеллектуальные системы ИИ обычно обладают следующими возможностями: 1) Прогностическое моделирование: интеллектуальные системы ИИ могут предсказывать вероятные результаты или предлагать последующие шаги на основе исторических данных и тенденций. Например, они могут предсказать продолжение текста, ответ на вопрос, следующее действие робота или решение сценария.2) Принятие решений: в некоторых приложениях интеллектуальные системы ИИ могут принимать решения на основе своих умозаключений. Как правило, интеллекты принимают решения, основываясь на том, что с наибольшей вероятностью приведет к достижению поставленной цели. В таких приложениях ИИ, как рекомендательные системы, интеллекты могут решать, какие продукты или контент рекомендовать, основываясь на своих умозаключениях о предпочтениях пользователей.3) Обработка неоднозначности: интеллекты ИИ часто могут обрабатывать неоднозначные входные данные, делая вывод о наиболее вероятной интерпретации на основе контекста и обучения. Однако их возможности ограничены объемом обучающих данных и алгоритмов.4) Непрерывное совершенствование: хотя некоторые ИИ-интеллекты способны обучаться на основе новых данных и взаимодействий, многие крупные языковые модели не обновляют постоянно свою базу знаний или внутренние представления после обучения. Их умозаключения обычно основываются только на данных, доступных на момент последнего обновления обучения.
На рисунке 2 мы показываем дополненные интерактивные интеллекты для мультимодальной и кросс-реалистичной интеграции с эмерджентными механизмами. Интеллектуальные системы искусственного интеллекта требуют сбора большого количества обучающих данных для каждой новой задачи, что может быть дорогостоящим или невозможным для многих областей. В данном исследовании мы разрабатываем бесконечное интеллектуальное тело, которое учится переносить в память информацию из базовой модели общего назначения (например, GPT-X, DALL-E) в новые домены или сценарии для понимания, генерации и интерактивного редактирования сценариев в физическом или виртуальном мире.
Одним из применений такого бесконечного интеллекта в робототехнике является RoboGen Wang et al. (2023d). В этом исследовании авторы представляют конвейер для автономного выполнения циклов предложения задач, генерации окружения и обучения навыкам. RoboGen - это попытка перенести знания, заложенные в крупномасштабных моделях, в робототехнику.
2.2 Искусственный интеллект для интеллигенции с большими базовыми моделями
Недавние исследования показали, что крупномасштабные базовые модели играют важнейшую роль в создании данных, которые выступают в качестве эталонов для определения действий интеллектуального организма в рамках ограничений, накладываемых окружающей средой. В качестве примера можно привести использование базовых моделей для манипулирования роботами Black et al. (2023); Ko et al. (2023) и навигации Shah et al. (2023a); Zhou et al. (2023a). В качестве примера: в качестве высокоуровневого планировщика Блэк и др. используют модель редактирования изображений для создания изображений будущих подцелей, чтобы направлять низкоуровневую стратегию Black et al. (2023). Для навигации роботов Шах и др. предлагают систему, использующую макроязыковую модель для распознавания ориентиров в тексте и визуальную языковую модель для ассоциации этих ориентиров с визуальными входами, что улучшает навигацию с помощью команд на естественном языке Шах и др. (2023a).
Также растет интерес к генерированию обусловленных движений человека с учетом лингвистических и экологических факторов. Было предложено несколько систем ИИ для генерации движений и действий, адаптированных к определенным лингвистическим командам Kim et al. (2023); Zhang et al. (2022); Tevet et al. (2022) и адаптированных к различным 3D-сценам Wang et al. (2022a). Эти исследования подчеркивают растущие возможности генеративных моделей в повышении адаптивности и быстроты реакции ИИ-интеллектов в различных сценариях.
2.2.1 Галлюцинации
Интеллектуалы, генерирующие текст, часто подвержены галлюцинациям, то есть ситуациям, когда сгенерированный текст не имеет смысла или не соответствует предоставленному исходному контенту Raunak et al. (2021); Maynez et al. (2020). Иллюзии можно разделить на две категории.внутренняя иллюзияответить пениемвнешняя иллюзия Ji et al. (2023). Внутренние иллюзии - это те, которые противоречат исходному материалу, в то время как внешние иллюзии - это случаи, когда сгенерированный текст содержит дополнительную информацию, которая изначально не была включена в исходный материал.
Некоторые перспективные направления снижения частоты иллюзий при генерации языка включают использование поиска для улучшения генерации Lewis et al. (2020); Shuster et al. (2021) или другие подходы, поддерживающие вывод естественного языка с помощью поиска внешних знаний Dziri et al. (2021); Peng et al. (2023). Как правило, эти подходы направлены на улучшение генерации языка путем поиска других исходных материалов и предоставления механизмов для проверки противоречий между сгенерированным ответом и исходным материалом.
В контексте мультимодальных интеллектуальных систем тела было показано, что визуальные языковые модели также могут вызывать галлюцинации Zhou et al. (2023b). Частой причиной галлюцинаций при визуальной генерации языка является чрезмерная зависимость от совпадения объектов и визуальных подсказок в обучающих данных Rohrbach et al. (2018). ИИ-интеллекты, которые полагаются исключительно на предварительно обученные макроязыковые или визуальные языковые модели и используют ограниченную тонкую настройку в зависимости от контекста, могут быть особенно склонны к галлюцинациям, поскольку они полагаются на внутреннюю базу знаний предварительно обученной модели для генерации действий и могут неточно понимать динамику состояния мира, в котором они развернуты.
2.2.2 Предрассудки и инклюзивность
ИИ-интеллекты, основанные на больших языковых моделях (LLM) или больших мультимодальных моделях (LMM), являются необъективными из-за множества факторов, присущих их разработке и процессу обучения. При разработке таких ИИ-интеллектов мы должны помнить об инклюзивности и учитывать потребности всех конечных пользователей и заинтересованных сторон. В контексте интеллекта ИИнеисключительность относится к мерам и принципам, принятым для обеспечения того, чтобы ответы и взаимодействие интеллигенции были инклюзивными, уважительными и чувствительными к широкому кругу пользователей из разных слоев общества. Ниже мы изложим ключевые аспекты предвзятости и инклюзивности интеллигентных тел.
- Учебные данные: Базовые модели обучаются на больших объемах текстовых данных, собранных из Интернета, включая книги, статьи, веб-сайты и другие текстовые источники. Эти данные часто отражают существующие в человеческом обществе предубеждения, которые модель может непреднамеренно усвоить и воспроизвести. К ним относятся стереотипы, предрассудки и предвзятые мнения, связанные с расой, полом, этнической принадлежностью, религией и другими личностными характеристиками. В частности, обучаясь на данных Интернета и часто используя для обучения только английский текст, модели неявно усваивают культурные нормы западных, образованных, промышленно развитых, богатых и демократических (WEIRD) обществ Henrich et al. (2010), которые в непропорционально большой степени представлены в Интернете. Однако важно признать, что созданные человеком наборы данных не могут быть полностью свободны от предвзятости, поскольку они часто отражают общественные предубеждения, а также предубеждения людей, которые первоначально создали и/или собрали эти данные.
- Историческая и культурная предвзятостьМодели искусственного интеллекта обучаются на больших массивах данных различного содержания. В качестве таких обучающих данных часто используются исторические тексты или материалы из разных культур. В частности, обучающие данные из исторических источников могут содержать оскорбительные или уничижительные выражения, отражающие культурные нормы, взгляды и предрассудки конкретного общества. Это может привести к созданию моделей, которые увековечивают устаревшие стереотипы или не в полной мере понимают современные культурные изменения и нюансы.
- Языковые и контекстуальные ограничения: Языковые модели могут испытывать трудности с пониманием и точным представлением нюансов языка, таких как ирония, юмор или культурные аллюзии. В некоторых случаях это может привести к непониманию или необъективным ответам. Кроме того, многие аспекты разговорного языка не отражаются только в текстовых данных, что приводит к потенциальному расхождению между тем, как люди понимают язык, и тем, как его понимают модели.
- Политика и руководящие принципыИИ-интеллекты работают в соответствии со строгими правилами и рекомендациями, обеспечивающими справедливость и инклюзивность. Например, при создании изображений существуют правила, позволяющие разнообразить изображение персонажей и избежать стереотипов, связанных с расой, полом и другими признаками.
- чрезмерное обобщение: Эти модели, как правило, генерируют ответы на основе шаблонов, наблюдаемых в обучающих данных. Это может привести к чрезмерному обобщению, и модели могут генерировать ответы, которые кажутся стереотипными для определенных групп или делают широкие предположения.
- Постоянный мониторинг и обновление: Система ИИ постоянно контролируется и обновляется для решения любых возникающих проблем, связанных с предвзятостью или инклюзивностью. Отзывы пользователей и текущие исследования в области этики ИИ играют важную роль в этом процессе.
- Усиление мейнстрима: Поскольку обучающие данные обычно содержат больше контента, относящегося к доминирующей культуре или группе, модель может быть более предвзятой по отношению к этим взглядам и, таким образом, недооценивать или искажать взгляды меньшинств.
- Этический и инклюзивный дизайнИнструменты ИИ должны разрабатываться с учетом этических соображений и инклюзивности как основных принципов. Это включает в себя уважение культурных различий, поощрение разнообразия и обеспечение того, чтобы ИИ не увековечивал вредные стереотипы.
- Руководство пользователяПользователей также инструктируют о том, как взаимодействовать с ИИ таким образом, чтобы это способствовало инклюзивности и уважению. Это включает в себя отказ от запросов, которые могут привести к предвзятому или неуместному результату. Кроме того, это может помочь смягчить ситуации, когда модель усваивает вредный материал из взаимодействия с пользователем.
Несмотря на эти меры, предубеждения в интеллектуальных системах ИИ сохраняются. Текущие исследования и разработки в области ИИ для Intelligentsia направлены на дальнейшее уменьшение этих предубеждений и повышение инклюзивности и справедливости систем ИИ для Intelligentsia. Усилия по снижению предвзятости:
- Разнообразные и инклюзивные учебные данные: В настоящее время предпринимаются усилия по включению в учебные данные более разнообразных и инклюзивных источников.
- Обнаружение и коррекция погрешностейТекущие исследования направлены на выявление и коррекцию смещений в ответах модели.
- Этические принципы и политикаМодели часто связаны этическими принципами и политикой, направленной на смягчение предвзятости и обеспечение уважительного и инклюзивного взаимодействия.
- Разностороннее представительствоОбеспечить, чтобы контент, создаваемый или предоставляемый интеллектуальным ИИ, представлял широкий спектр человеческого опыта, культур, этнических групп и идентичностей. Это особенно актуально в таких сценариях, как создание изображений или построение повествований.
- Уменьшение предвзятости: Активная работа по снижению предвзятости в ответах ИИ. Сюда относятся предубеждения, связанные с расой, полом, возрастом, инвалидностью, сексуальной ориентацией и другими личными характеристиками. Цель - предоставить справедливый и сбалансированный ответ, а не увековечить стереотипы или предубеждения.
- Культурная чувствительностьПроекты AI учитывают культурные особенности, признавая и уважая разнообразие культурных норм, практик и ценностей. Это включает в себя понимание и адекватное реагирование на культурные особенности и нюансы.
- доступностьОбеспечить доступность интеллектуальных систем ИИ для пользователей с различными способностями, в том числе для людей с ограниченными возможностями. Это может включать в себя функции, облегчающие взаимодействие с людьми с нарушениями зрения, слуха, двигательных или когнитивных функций.
- Инклюзивность на основе языка: Обеспечить поддержку множества языков и диалектов для глобальной базы пользователей и быть чувствительным к внутриязыковым нюансам и вариациям Liu et al.
- Этичное и уважительное взаимодействие: Интеллект запрограммирован на этичное и уважительное взаимодействие со всеми пользователями, избегая ответов, которые могут быть расценены как оскорбительные, вредные или неуважительные.
- Обратная связь с пользователями и адаптация: Учитывайте отзывы пользователей, чтобы постоянно улучшать инклюзивность и эффективность ИИ-интеллектов. Это включает в себя обучение на основе взаимодействия, чтобы лучше понимать и обслуживать разнообразную базу пользователей.
- Соблюдение инклюзивных рекомендацийПридерживайтесь установленных руководящих принципов и стандартов инклюзивности ИИ-интеллекта, которые часто устанавливаются отраслевыми группами, комитетами по этике или регулирующими органами.
Несмотря на все эти усилия, важно осознавать возможность предвзятости ответов и критически подходить к их интерпретации. Постоянное совершенствование технологий искусственного интеллекта и этических норм направлено на то, чтобы со временем уменьшить количество таких предвзятостей. Интеллектуальные тела Одной из основных целей инклюзивности ИИ является создание интеллектуального тела, которое будет уважительным и доступным для всех пользователей, независимо от их происхождения или идентичности.
2.2.3 Конфиденциальность и использование данных
Ключевым этическим аспектом для интеллектуального ИИ является понимание того, как эти системы обрабатывают, хранят и потенциально могут получить пользовательские данные. Ниже мы рассмотрим ключевые аспекты:
Сбор, использование и назначение данных.
При использовании пользовательских данных для улучшения работы модели разработчики моделей получают доступ к данным, собранным искусственным интеллектом в процессе производства и при взаимодействии с пользователями. Некоторые системы позволяют пользователям просматривать свои данные через учетную запись или путем отправки запроса поставщику услуг. Важно понимать, какие данные собирает ИИ-интеллект во время такого взаимодействия. Это может быть текстовый ввод, шаблоны использования, личные предпочтения, а иногда и более конфиденциальная личная информация. Пользователи также должны понимать, как используются данные, собранные в ходе взаимодействия с ними. Если по какой-то причине ИИ хранит неверную информацию о конкретном человеке или группе людей, у пользователя должен быть механизм, позволяющий исправить ошибку после ее распознавания. Это важно для обеспечения точности и уважения ко всем пользователям и группам. К числу распространенных способов получения и анализа пользовательских данных относятся улучшение взаимодействия с пользователем, персонализация ответов и оптимизация систем. Разработчикам важно следить за тем, чтобы данные не использовались в целях, на которые пользователи не давали согласия (например, нежелательный маркетинг).
Хранение и безопасность.
Разработчики должны знать, где хранятся данные о взаимодействии с пользователем и какие меры безопасности применяются для защиты от несанкционированного доступа или разглашения. К ним относятся шифрование, защищенные серверы и протоколы защиты данных. Важно определить, передаются ли данные "умного тела" третьим лицам и при каких условиях. Это должно быть прозрачно и обычно требует согласия пользователя.
Удаление и хранение данных.
Пользователям также важно понимать, как долго хранятся данные пользователя и как пользователь может попросить удалить свои данные. Многие законы о защите данных предоставляют пользователям право на забвение, что означает, что они могут попросить удалить свои данные. AI Intelligentsia должна соблюдать законы о защите данных, такие как GDPR ЕС или CCPA Калифорнии. Эти законы регулируют методы обработки данных и права пользователей на их личные данные.
Переносимость данных и политика конфиденциальности.
Кроме того, разработчики должны разработать политику конфиденциальности для интеллектуального ИИ, чтобы задокументировать и объяснить пользователям, как будут обрабатываться их данные. В ней должны быть подробно описаны сбор, использование, хранение данных и права пользователей. Разработчики должны обеспечить получение согласия пользователей на сбор данных, особенно конфиденциальной информации. Обычно пользователи могут отказаться от предоставления данных или ограничить их. В некоторых юрисдикциях пользователи могут даже иметь право запросить копию своих данных в формате, который может быть передан другому поставщику услуг.
Анонимизация.
Данные, используемые в более широкой аналитике или обучении ИИ, в идеале должны быть анонимизированы для защиты личных данных. Разработчики должны понимать, как их ИИ-интеллекты получают и используют исторические данные пользователей во время взаимодействия. Это может быть сделано для персонализации или повышения релевантности ответа.
В целом, понимание конфиденциальности данных для интеллектов ИИ включает в себя понимание того, как собираются, используются, хранятся и защищаются данные пользователей, а также обеспечение того, чтобы пользователи знали о своих правах на доступ, исправление и удаление своих данных. Понимание механизмов получения данных пользователями и искусственными интеллектами также имеет решающее значение для полного понимания конфиденциальности данных.
2.2.4 Интерпретируемость и описательность
Обучение через подражание → отсоединение
Интеллектуалы обычно обучаются с помощью непрерывных циклов обратной связи в рамках обучения с подкреплением (RL) или имитационного обучения (IL), начиная со случайно инициализированной стратегии. Однако такой подход сталкивается с проблемой получения начального вознаграждения в незнакомой среде, особенно если вознаграждение редкое или доступно только в конце длительных взаимодействий. Поэтому лучшим решением является использование интеллектов с бесконечной памятью, обученных с помощью имитационного обучения, которые могут изучать стратегии на основе экспертных данных, что приводит к улучшению исследования и использования пространства невидимой среды, а также возникающих инфраструктур, как показано на рисунке 3. Экспертные функции помогают интеллектам лучше исследовать и использовать невидимые пространства окружающей среды. ИИ интеллектуального тела может обучаться стратегиям и новым парадигмальным процессам непосредственно на основе экспертных данных.
Традиционное подражательное обучение позволяет интеллекту обучаться стратегиям, подражая поведению эксперта-демонстратора. Однако прямое изучение стратегий эксперта не всегда является оптимальным подходом, поскольку интеллектуальное тело может не очень хорошо обобщаться на невидимые ситуации. Чтобы решить эту проблему, мы предлагаем обучать интеллектуальное тело с помощью контекстных подсказок или неявных функций вознаграждения, которые отражают ключевые аспекты поведения эксперта, как показано на рисунке 3. Это позволяет оснастить интеллекты с бесконечной памятью данными о поведении в физическом мире, полученными из демонстраций экспертов, для выполнения задач. Это помогает преодолеть недостатки существующего имитационного обучения, такие как необходимость в большом количестве экспертных данных и возможность ошибки при выполнении сложных задач. Ключевая идея ИИ Intelligent Body состоит из двух компонентов: 1) Infinite Intelligent Body, который собирает демонстрации экспертов в физическом мире в виде пар "состояние-действие", и 2) виртуальная среда Imitation Intelligent Body Generator. Имитационное интеллектуальное тело генерирует действия, которые имитируют поведение эксперта, в то время как интеллектуальное тело обучается политике отображения состояний на действия путем уменьшения функции потерь от разницы между действиями эксперта и действиями, генерируемыми обучаемой политикой.
Разъединение → Обобщение
Вместо того чтобы полагаться на функции вознаграждения, специфичные для конкретной задачи, интеллектуальное тело учится на демонстрациях экспертов, которые предоставляют разнообразный набор пар "состояние - действие", охватывающих различные аспекты задачи. Затем разумное тело учится стратегии сопоставления состояний и действий, подражая поведению эксперта. Разделение в обучении по подражанию означает отделение процесса обучения от функции вознаграждения за выполнение конкретной задачи, что позволяет стратегиям обобщаться для различных задач без явной зависимости от функции вознаграждения за выполнение конкретной задачи. Благодаря отделению процесса обучения интеллект может учиться на примерах экспертов и выработать стратегию, которая может быть адаптирована к различным ситуациям. Отсоединение позволяет осуществлять трансферное обучение, при котором стратегия, выученная в одной области, может быть адаптирована к другим областям с минимальной тонкой настройкой. Обучаясь обобщенной стратегии, которая не привязана к конкретной функции вознаграждения, разумное тело может использовать знания, полученные при выполнении одной задачи, для успешного выполнения других, связанных с ней задач. Поскольку разумное тело не зависит от конкретной функции вознаграждения, оно может адаптироваться к изменениям в функции вознаграждения или окружающей среде без длительного переобучения. Это делает усвоенные стратегии более надежными и универсальными в различных условиях. В данном контексте под развязкой понимается разделение двух задач в процессе обучения: изучение функции вознаграждения и изучение оптимальной политики.
![Agent AI: 探索多模态交互的边界-3 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/3cc0593b0703242.png)
Рисунок 3. Пример механизма эмерджентного взаимодействия с использованием интеллектов для выделения текста, связанного с изображением, из текста-кандидата. Задача заключается в интеграции информации о внешнем мире с помощью мультимодальных интеллектов ИИ из сети и вручную маркированных образцов взаимодействия со знаниями.
Обобщение → эмерджентное поведение
Обобщение объясняет, как эмерджентные свойства или поведение могут возникать из более простых компонентов или правил. Основная идея заключается в том, чтобы определить базовые элементы или правила, которые управляют поведением системы, например, отдельные нейроны или базовые алгоритмы. Таким образом, наблюдая за тем, как эти простые компоненты или правила взаимодействуют друг с другом. Взаимодействие этих компонентов часто приводит к возникновению сложных форм поведения, которые невозможно предсказать, изучая только отдельные компоненты. Обобщение на разных уровнях сложности позволяет системе усвоить общие принципы, которые применяются на этих уровнях, что приводит к появлению эмерджентных свойств. Это позволяет системе адаптироваться к новым ситуациям, демонстрируя возникновение более сложных форм поведения на основе более простых правил. Кроме того, способность к обобщению на разных уровнях сложности облегчает перенос знаний из одной области в другую, что способствует появлению сложных форм поведения в новых условиях по мере адаптации системы.
2.2.5 Усовершенствование рассуждений
Разумные способности интеллектуальных систем ИИ заключаются в их способности интерпретировать, предсказывать и реагировать на основе обучающих и исходных данных. Хотя эти возможности развиваются и совершенствуются, важно признать их ограничения и влияние исходных данных, на которых они обучаются. В частности, в контексте больших языковых моделей (LLM) речь идет об их способности делать выводы, прогнозы и генерировать ответы на основе данных, которым они обучены, и входных данных, которые они получают. Дополнение рассуждений в интеллектуальных системах ИИ означает использование дополнительных инструментов, методов или данных для расширения возможностей естественного рассуждения ИИ с целью повышения его производительности, точности и полезности. Это особенно важно в сложных сценариях принятия решений или при работе с тонким или специализированным контентом. Ниже мы перечислим наиболее важные источники расширения возможностей рассуждений:
Богатство данных.
Использование дополнительных (часто внешних) источников данных для создания дополнительного контекста или фона может помочь ИИ-интеллектам делать более обоснованные выводы, особенно в тех областях, где их обучающие данные могут быть ограничены. Например, ИИ-интеллекты могут улавливать смысл из контекста диалога или текста. Они анализируют полученную информацию и используют ее для понимания намерений и соответствующих деталей запроса пользователя. Эти модели умеют распознавать закономерности в данных. Они используют эту способность для вывода информации о языке, поведении пользователя или других значимых явлениях на основе паттернов, полученных в процессе обучения.
Алгоритмическое усовершенствование.
Улучшение алгоритмов, лежащих в основе ИИ, для более эффективного рассуждения. Это может включать в себя использование более совершенных моделей машинного обучения, интеграцию различных типов ИИ (например, объединение обработки естественного языка (NLP) и распознавания образов) или обновление алгоритмов для более эффективного решения сложных задач. Рассуждения в языковом моделировании подразумевают понимание и генерирование человеческого языка. Это включает в себя понимание интонации, намерений и нюансов различных языковых структур.
Человек в петле (HITL).
Привлечение людей для дополнения рассуждений ИИ может быть особенно полезно в тех областях, где человеческое мнение имеет решающее значение (например, при решении этических задач, творческих заданий или неоднозначных сценариев). Люди могут подсказывать, исправлять ошибки или предлагать идеи, которые интеллект не может сформулировать самостоятельно.
Интеграция обратной связи в режиме реального времени.
Использование обратной связи в реальном времени от пользователя или окружающей среды для дополнения рассуждений - еще один перспективный подход к повышению производительности в процессе рассуждений. Например, ИИ может корректировать свои рекомендации, основываясь на реакции пользователя в реальном времени или на изменяющихся условиях в динамической системе. Кроме того, если ИИ совершает действие, нарушающее определенные правила в моделируемой среде, обратная связь может динамически предоставляться ИИ, чтобы помочь ему исправиться.
Междисциплинарная передача знаний.
Использование знаний или моделей из одной области для улучшения рассуждений в другой особенно полезно при создании результатов в специализированных дисциплинах. Например, методы, разработанные для перевода языка, могут быть применены для генерации кода, а знания из области медицинской диагностики могут улучшить предиктивное обслуживание машин.
Настройка для конкретных случаев использования.
Настраивать способности ИИ к рассуждениям для конкретной области применения или отрасли может потребоваться обучение ИИ на специализированных наборах данных или тонкая настройка его модели для решения конкретной задачи, такой как юридический анализ, медицинская диагностика или финансовое прогнозирование. Поскольку специфический язык или информация в одной области может контрастировать с языком из других областей, тонкая настройка интеллекта на знания, специфические для данной области, может быть полезной.
Этические соображения и предубеждения.
Важно, чтобы процесс усовершенствования не привел к появлению новых предубеждений или этических проблем. Это предполагает тщательное рассмотрение влияния на справедливость и прозрачность источников дополнительных данных или новых алгоритмов улучшения рассуждений. Интеллектуальные системы ИИ иногда должны учитывать этические соображения при рассуждениях, особенно по деликатным темам. Это включает в себя отказ от вредных стереотипов, уважение частной жизни и обеспечение справедливости.
Постоянное обучение и адаптация.
Регулярно обновляйте и совершенствуйте возможности ИИ, чтобы соответствовать новым разработкам, изменяющимся ландшафтам данных и меняющимся потребностям пользователей.
В целом, расширение возможностей рассуждений в ИИ-интеллектах включает в себя методы расширения их естественных возможностей рассуждения с помощью дополнительных данных, улучшенных алгоритмов, человеческого вклада и других методов. В зависимости от конкретного случая использования, такие усовершенствования часто имеют решающее значение для решения сложных задач и обеспечения точности результатов работы интеллекта.
2.2.6 Регулирование
В последнее время ИИ интеллектуальных тел достиг значительных успехов, а его интеграция с воплощенными системами открыла новые возможности для взаимодействия с интеллектуальными телами с помощью более иммерсивных, динамичных и увлекательных ощущений. Чтобы ускорить этот процесс и облегчить хлопоты, связанные с разработкой ИИ для интеллектуальных тел, мы предлагаем разработать конвейер взаимодействия интеллектуальных тел следующего поколения с поддержкой ИИ. Разработать систему человеко-машинного взаимодействия, которая позволит людям и машинам общаться и осмысленно взаимодействовать. Система может использовать разговорные возможности и широкий спектр действий Большой языковой модели (LLM) или Визуальной языковой модели (VLM) для общения с людьми и определения их потребностей. Затем она будет выполнять соответствующие действия, чтобы помочь игроку при необходимости.
При использовании больших языковых моделей (LLM)/визуальных языковых моделей (VLM) в системах совместной работы человека и робота важно учитывать, что эти модели работают как "черные ящики" и выдают непредсказуемые результаты. Эта неопределенность может стать критической в физических условиях (например, при управлении реальным роботом). Один из способов решения этой проблемы - ограничить фокус большой языковой модели (LLM)/визуальной языковой модели (VLM) с помощью разработки подсказок. Например, сообщалось, что при планировании роботами задач на основе инструкций предоставление информации об окружающей среде в подсказках дает более стабильный результат, чем опора только на текст Gramopadhye и Szafir (2022). Этот отчет подтверждается теорией Мински о структуре ИИ Minsky (1975), которая предполагает, что пространство задач, решаемых большой языковой моделью (LLM)/визуальной языковой моделью (VLM), определяется заданной подсказкой. Другой подход заключается в разработке подсказок таким образом, чтобы Большая языковая модель (LLM)/Визуальная языковая модель (VLM) содержала пояснительный текст, позволяющий пользователю понять, на чем фокусируется или что распознает модель. Кроме того, реализация более высокого уровня, позволяющего проводить проверку и модификацию перед выполнением под руководством человека, может облегчить работу систем, работающих под таким руководством (рис. 4).
![Agent AI: 探索多模态交互的边界-4 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/6ffe2854665853e.png)
Рисунок 4. Система обучения робототехнике, разработанная в Wake et al. (2023c). (Слева) Рабочий процесс системы. Процесс состоит из трех этапов: планирование задач, которое ChatGPT Планирование задач робота на основе инструкций и информации об окружающей среде; демонстрация, когда пользователь наглядно демонстрирует последовательность действий. Все шаги просматриваются пользователем, и если какой-либо шаг не удался или показал дефекты, предыдущие шаги могут быть пересмотрены по мере необходимости. (справа) Веб-приложение, позволяющее загружать демонстрационные данные и взаимодействовать между пользователем и ChatGPT.
2.3 Интеллектуальный ИИ для эмерджентных возможностей
Несмотря на все более широкое распространение систем ИИ с интерактивным интеллектом, большинство предлагаемых подходов по-прежнему сталкиваются с проблемами в плане эффективности обобщения в невидимых средах или сценариях. Текущая практика моделирования требует от разработчиков подготовки больших наборов данных для каждой области, чтобы точно настроить/предварительно обучить модели; однако этот процесс является дорогостоящим или даже невозможным, если область является новой. Для решения этой проблемы мы создали интерактивные интеллекты, которые используют память знаний общих базовых моделей (ChatGPT, Dall-E, GPT-4 и др.) для новых сценариев, в частности для создания пространства сотрудничества между людьми и интеллектами. Мы определили механизм, который мы называем смешанной реальностью с взаимодействием "знание-рассуждение", который облегчает сотрудничество с людьми для решения сложных задач в сложных условиях реального мира, а также способность исследовать невидимые среды для адаптации к виртуальной реальности. Для этого механизма интеллекты учатся i) микрореакциям в разных модальностях: путем сбора релевантных индивидуальных знаний для каждой задачи взаимодействия из явных сетевых источников (например, для понимания невидимых сценариев) и неявного вывода из результатов предварительно обученных моделей; ii) макроповедению в независимой от реальности манере: путем уточнения измерений и паттернов взаимодействия в лингвистическом и мультимодальном доменах и рассуждений о роли представлений, определенных целевых переменных, о смешанной реальности и о разнообразие влияния совместной информации в Большой языковой модели (LLM) для внесения изменений. Мы исследуем задачу синергии взаимодействия, управляемой знаниями, для генерации сценариев в сотрудничестве с различными моделями OpenAI и показываем, как система Interactive Intelligentsia может улучшить многообещающие результаты для крупномасштабных базовых моделей в нашей установке. Она объединяет и улучшает глубину обобщения, осведомленность и интерпретируемость сложных адаптивных систем ИИ.
3 Парадигма искусственного интеллекта тела
В этом разделе мы рассмотрим новую парадигму и структуру для обучения ИИ интеллекту. Мы надеемся достичь нескольких целей с помощью предложенной структуры:
- -
Используя существующие модели и стратегии предварительного обучения, наши интеллекты эффективно направляются для понимания важных модальностей, таких как текстовые или визуальные данные. - -
Поддержка адекватного потенциала долгосрочного планирования миссий. - -
Внедрение мнемонической системы, которая позволяет кодировать и извлекать знания впоследствии. - -
Позволяет использовать обратную связь с окружающей средой, чтобы эффективно обучать интеллекты тому, какие действия следует предпринять.
На рисунке 5 представлена высокоуровневая диаграмма новой интеллигенции, в которой указаны важные подмодули такой системы.
![Agent AI: 探索多模态交互的边界-5 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/893a5d2140b345e.png)
Рис. 5: Предлагаемая нами новая парадигма интеллектуального тела для мультимодальных интеллектов общего назначения. Как показано на рисунке, существует 5 основных модулей: 1) окружение и восприятие, включая планирование задач и наблюдение за навыками; 2) обучение интеллектуального тела; 3) память; 4) действия интеллектуального тела; и 5) познание.
3.1 Большие языковые модели и визуальные языковые модели
Мы можем использовать либо большую языковую модель (LLM), либо визуальную языковую модель (VLM) для создания компонентов интеллектуального тела, как показано на рисунке 5. В частности, было показано, что большие языковые модели хорошо справляются с планированием задач Gong et al. (2023a), содержат большой объем знаний о мире Yu et al. (2023b) и демонстрируют впечатляющие логические рассуждения Creswell et al. (2022). Кроме того, визуальные языковые модели, такие как CLIP Radford et al. (2021), предоставляют общий визуальный кодер, согласованный с языком, а также предлагают возможности визуального распознавания с нулевой выборкой. Например, современные мультимодальные модели с открытым исходным кодом, такие как LLaVA Liu et al. (2023c) и InstructBLIP Dai et al. (2023), опираются на замороженную модель CLIP в качестве визуального кодера.
![Agent AI: 探索多模态交互的边界-4 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/bbe6faec7c0ecfb.png)
Рисунок 6. Мы показываем современную парадигму создания мультимодальных интеллектов ИИ путем объединения больших языковых моделей (LLM) с большими визуальными моделями (LVM). Как правило, эти модели получают визуальный или лингвистический входной сигнал и используют предварительно обученные и замороженные визуальные и лингвистические модели, чтобы научиться соединять и мостить меньшие подсети модальностей. В качестве примеров можно привести Flamingo Alayrac et al. (2022), BLIP-2 Li et al. (2023c), InstructBLIP Dai et al. (2023) и LLaVA Liu et al.
3.2 Определение интеллектуального трансформатора корпуса
Помимо использования замороженных моделей макроязыка и визуальных моделей языка в качестве интеллектов ИИ, можно использовать единый интеллект Трансформатор модель, которая сочетает в себе визуальные Токен и лингвистический Token в качестве входных данных, аналогично Gato Reed et al. (2022). В дополнение к визуальным и лингвистическим мы добавляем третий общий тип входных данных, который мы обозначаем какумное тело Токен: концептуально, токен интеллектуального тела используется для резервирования определенного подпространства для поведения интеллектуального тела в пространстве входных и выходных данных модели. Для роботов или игр это может быть представлено как пространство входных действий контроллера. Токен Intelligent Body также может использоваться при обучении интеллектуального тела использованию определенного инструмента, например модели генерации или редактирования изображений, или для других вызовов API, как показано на рисунке 7, где мы можем объединить токен Intelligent Body с визуальным и лингвистическим токеном, чтобы создать единый интерфейс для обучения мультимодального ИИ интеллектуального тела. Использование Intelligent Body Transformer имеет ряд преимуществ по сравнению с использованием большой запатентованной языковой модели в качестве интеллектуального тела. Во-первых, модель может быть легко адаптирована к очень специфическим задачам интеллектуального тела, которые трудно представить на естественном языке (например, входы контроллера или другие специфические действия). Таким образом, интеллект может учиться на основе взаимодействия с окружающей средой и данных, специфичных для конкретной области, чтобы улучшить производительность. Во-вторых, получив доступ к вероятностям "Токена" интеллектуального тела, можно легче понять, почему модель выполняет или не выполняет то или иное действие. В-третьих, некоторые области (например, здравоохранение и юриспруденция) имеют строгие требования к конфиденциальности данных. Наконец, относительно небольшой преобразователь интеллектуального тела может быть гораздо дешевле, чем большая собственная языковая модель.
![Agent AI: 探索多模态交互的边界-5 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/b415bfaf197bc30.png)
Рис. 7: Унифицированная мультимодальная модель трансформера для интеллигенции. Вместо того чтобы соединять замороженные подмодули и использовать существующие базовые модели в качестве строительных блоков, мы предлагаем единую сквозную парадигму обучения для интеллектуальных систем тела. Мы по-прежнему можем инициализировать подмодули с помощью большой языковой модели и большой модели зрения на рисунке 6, но мы также можем использовать SmartBody Tokens, которые являются специализированными маркерами, используемыми для обучения моделей поведению SmartBody в определенных областях (например, робототехника). Более подробно о SmartBody Tokens см. раздел 3.2.
3.3 Создание трансформатора
Как показано на рисунке 5, мы можем использовать новую парадигму интеллектуального тела с интеллектуальными телами, управляемыми большими языковыми моделями и визуальными языковыми моделями, и использовать данные, генерируемые большой базовой моделью, для обучения модели Intelligent Body Transformer, чтобы научиться выполнять конкретные задачи. В процессе обучения модели интеллектуального тела подстраиваются под конкретные задачи и области. Такой подход позволяет использовать функции и знания, полученные от уже существующих базовых моделей. Ниже мы покажем упрощенный обзор процесса, состоящий из двух шагов:
Определите цели в домене.
Чтобы обучить трансформера интеллектуального тела, необходимо четко определить цели и действия интеллектуального тела в каждой конкретной среде. Это включает в себя определение конкретных задач или действий, которые должен выполнять интеллект, и назначение уникальных токенов интеллекта для каждой задачи или действия. Кроме того, любые автоматизированные правила или процедуры, которые могут быть использованы для распознавания успешного выполнения задачи, могут значительно увеличить объем данных, доступных для обучения. В противном случае для обучения модели потребуются данные, сгенерированные базовой моделью, или данные, аннотированные вручную. После сбора данных и оценки эффективности интеллекта можно приступать к непрерывному совершенствованию.
Непрерывное совершенствование.
Постоянный мониторинг работы модели и сбор отзывов являются основополагающими этапами этого процесса. Отзывы должны использоваться для дальнейшей доработки и обновления. Также важно убедиться, что модель не приводит к получению необъективных или неэтичных результатов. Для этого необходимо тщательно изучать обучающие данные, регулярно проверять их на предмет предвзятости и, если требуется, обучать модель выявлять и избегать предвзятости. Как только модель достигает удовлетворительной производительности, ее можно использовать в предполагаемом применении. Непрерывный мониторинг по-прежнему важен для того, чтобы убедиться, что модель работает так, как ожидается, и внести необходимые коррективы. Более подробно об этом процессе, источниках обучающих данных и непрерывном обучении ИИ для интеллекта см. в разделе 8.
4 Интеллектуальное тело ИИ Обучение
4.1 Стратегии и механизмы
Стратегии интерактивного ИИ в различных областях расширяют парадигму использования обученных интеллектов, которые активно пытаются собрать обратную связь от пользователя, информацию о действиях, полезные знания для генерации и взаимодействия, чтобы вызвать большие базовые модели. Иногда нет необходимости повторно обучать большую языковую модель/визуальную языковую модель, и мы улучшаем производительность интеллектов, предоставляя им улучшенные контекстуальные подсказки во время тестирования. С другой стороны, это всегда предполагает моделирование взаимодействий между знаниями/рассуждениями/общим смыслом/рассуждениями с помощью комбинации тройных систем: одна система выполняет поиск знаний из мультимодельных запросов, вторая - генерацию взаимодействий из соответствующих интеллектов, а последняя обучает новым, богатым информацией, самоконтролируемым обучением или предварительным обучением улучшенным способом, включая обучение с подкреплением или имитационное обучение.
4.1.1 Обучение с подкреплением (RL)
Существует долгая история использования обучения с подкреплением (RL) для обучения интерактивных интеллектов, демонстрирующих разумное поведение. Обучение с подкреплением - это метод обучения оптимальным отношениям между состояниями и действиями на основе вознаграждений (или наказаний), полученных за их выполнение. Обучение с подкреплением - это высокомасштабируемая система, которая применяется в широком спектре приложений, включая робототехнику, однако, как правило, она сталкивается с рядом проблем с лидерами, и большие языковые модели/визуальные языковые модели показали свой потенциал для смягчения или преодоления некоторых из этих трудностей:
- Дизайн вознагражденияЭффективность обучения стратегии в значительной степени зависит от дизайна функции вознаграждения. Проектирование функции вознаграждения требует не только понимания алгоритма обучения с подкреплением, но и глубокого знания природы задачи, поэтому обычно приходится проектировать функцию на основе опыта экспертов. В нескольких исследованиях изучалось использование больших языковых моделей/визуальных языковых моделей для разработки функций вознаграждения Ю и др. (2023a); Катара и др. (2023); Ма и др.
- Сбор данных и эффективность Учитывая исследовательскую природу, обучение стратегии на основе обучения с подкреплением требует больших объемов данных Padalkar et al. (2023). Необходимость в больших объемах данных становится особенно очевидной, когда стратегия предполагает управление длинными последовательностями или интеграцию сложных операций. Это связано с тем, что такие сценарии требуют более тонкого принятия решений и обучения на более широком спектре ситуаций. В последних исследованиях были предприняты усилия по расширению генерации данных для поддержки обучения стратегии Kumar et al. (2023); Du et al. Кроме того, в некоторых исследованиях эти модели были интегрированы в функции вознаграждения для улучшения обучения стратегиям Sontakke et al. (2023). Параллельно с этими разработками еще одно исследование было посвящено достижению эффективности параметров в процессе обучения с помощью визуальных языковых моделей Tang et al. (2023); Li et al. (2023d) и большой языковой модели Shi et al. (2023).
- продольный шаг Что касается эффективности использования данных, то обучение с подкреплением становится все более сложным по мере увеличения длины последовательностей действий. Это связано с нечеткой взаимосвязью между действиями и вознаграждениями (известной как проблема распределения кредитов), а также с увеличением числа состояний, которые необходимо исследовать, что требует значительного количества времени и данных. Типичным подходом для длинных и сложных задач является их декомпозиция на ряд подцелей и применение предварительно обученных стратегий для решения каждой подцели (например, Takamatsu et al. (2022)). Эта идея принадлежит фреймворку планирования задач и движений (TAMP) Гарретта и др. (2021). Планирование задач и движений состоит из двух основных компонентов: планирования задач, которое подразумевает определение высокоуровневых последовательностей операций, и планирования движений, которое подразумевает поиск физически согласованных, свободных от столкновений траекторий для достижения целей плана задач. Большие языковые модели хорошо подходят для планирования задач и движений, и в последних исследованиях обычно используется подход, при котором высокоуровневое планирование задач выполняется с помощью больших языковых моделей, а низкоуровневое управление решается с помощью стратегий, основанных на обучении с подкреплением Xu et al. (2023); Sun et al. (2023a); Li et al. (2023b); Parakh et al. Расширенные возможности больших языковых моделей позволяют им эффективно разлагать абстрактные инструкции на подцели Wake et al. (2023c), что способствует улучшению понимания языка в робототехнических системах.
4.1.2 Имитационное обучение (ИО)
Если обучение с подкреплением направлено на обучение стратегиям, основанным на изучении поведения и максимизации вознаграждения от взаимодействия с окружающей средой, то обучение с подражанием (IL) направлено на использование экспертных данных для подражания поведению опытных интеллектуалов или экспертов. Например, одним из основных механизмов обучения на основе подражания в робототехнике является поведенческое клонирование (BC). Поведенческое клонирование - это метод обучения робота имитации действий эксперта путем прямого копирования. При таком подходе действия эксперта при выполнении конкретной задачи записываются, а робот обучается повторять эти действия в аналогичных ситуациях. Последние подходы, основанные на клонировании поведения, обычно сочетают в себе методы больших языковых моделей/визуальных языковых моделей, которые позволяют создавать более совершенные сквозные модели. Например, Брохан и др. представляют RT-1 Brohan et al. (2022) и RT-2 Brohan et al. (2023), модели на основе трансформеров, которые принимают на вход серию изображений и язык, а на выходе выдают последовательности действий базы и руки. Сообщается, что эти модели демонстрируют высокую эффективность обобщения благодаря обучению на большом количестве обучающих данных.
4.1.3 Традиционный RGB
Обучение интеллектуальному поведению тела с использованием изображений представляет интерес на протяжении многих лет Mnih et al. (2015). Неотъемлемой проблемой использования RGB-изображений является катастрофа размерности. Чтобы решить эту проблему, исследователи либо используют больше данных Jang et al. (2022); Ha et al. (2023), либо вводят индуктивное смещение при разработке модели для повышения эффективности выборки. В частности, авторы интегрируют 3D-структуры в архитектуру модели, используемой для манипуляций Zeng et al. (2021); Shridhar et al. (2023); Goyal et al. (2023); James and Davison (2022). Для навигации роботов авторы Chaplot et al. (2020a, b) используют карты в качестве представления. Карты могут быть выучены нейронными сетями, агрегирующими все предыдущие RGB-входы, а также методами 3D-реконструкции, такими как нейронные поля излучения Rosinol et al. (2022).
Чтобы получить больше данных, исследователи используют графические симуляторы для синтеза синтетических данных Mu et al. (2021); Gong et al. (2023b) и пытаются устранить разрыв между sim2real Тобин и др. (2017); Sadeghi и Levine (2016); Peng et al. (2018). Недавно были предприняты согласованные усилия по сбору крупномасштабных наборов данных, направленные на решение проблемы нехватки данных Padalkar et al. (2023); Brohan et al. С другой стороны, также активно исследуются методы улучшения данных для повышения сложности выборки Zeng et al. (2021); Rao et al. (2020); Haarnoja et al. (2023); Lifshitz et al.
4.1.4 Контекстное обучение
Контекстное обучение было показано как эффективный метод решения задач обработки естественного языка с использованием больших языковых моделей, таких как GPT-3 Brown et al. (2020); Min et al. (2022). Приведя примеры задач в контексте подсказок большой языковой модели, можно убедиться, что подсказки без примеров являются эффективным способом контекстуализации вывода модели в различных задачах обработки естественного языка. Такие факторы, как разнообразие примеров и качество примеров, представленных в контексте, могут улучшить качество вывода модели An et al. (2023); Dong et al. (2022). В контексте мультимодальных базовых моделей, когда дается лишь небольшое количество примеров, такие модели, как Flamingo и BLIP-2 Alayrac et al. (2022); Li et al. (2023c), показали свою эффективность в широком спектре задач на визуальное восприятие. Контекстное обучение интеллекту в окружающей среде может быть улучшено за счет интеграции контекстно-специфической обратной связи при выполнении определенных действий Gong et al. (2023a).
4.1.5 Оптимизация в интеллектуальных системах организма
Оптимизацию систем интеллектуальных тел можно разделить на пространственную и временную. Пространственная оптимизация рассматривает, как интеллектуальные тела действуют в физическом пространстве для выполнения задач. Это включает в себя координацию между роботами, распределение ресурсов и поддержание организованного пространства.
Для эффективной оптимизации систем ИИ разумных тел, особенно тех, в которых большое количество интеллектов работает параллельно, предыдущие работы были сосредоточены на использовании обучения с подкреплением в больших объемах Shacklett et al. (2023). Поскольку наборы данных по взаимодействию нескольких разумных тел в конкретной задаче редки, самоигральное обучение с подкреплением позволяет командам разумных тел совершенствоваться с течением времени. Однако это может привести к появлению очень хрупких интеллектов, которые могут работать только в режиме самоигры, но не с людьми или другими независимыми интеллектами, поскольку они не вписываются в парадигму самоигрового обучения. Чтобы решить эту проблему, мы можем вместо этого открыть набор различных конвенций Cui et al. (2023); Sarkar et al. (2023) и обучить интеллект, который понимает различные конвенции. Базовая модель может в дальнейшем помочь установить соглашения с людьми или другими независимыми интеллектами, обеспечивая тем самым плавную координацию с новыми интеллектами.
С другой стороны, временная оптимизация фокусируется на том, как интеллект выполняет задачи во времени. Это включает в себя планирование задач, их последовательность и эффективность временной шкалы. Например, оптимизация траектории движения руки робота является примером эффективной оптимизации движения между последовательными задачами Zhou et al. (2023c). На уровне планирования задач такие алгоритмы, как LLM-DP Dagan et al. (2023) и ReAct Такие подходы, как Yao et al. (2023a), направлены на эффективное планирование задач путем интерактивной интеграции факторов окружающей среды.
4.2 Агентские системы (нулевой и несколько уровней выборки)
4.2.1 Модуль агента
Наше первоначальное исследование парадигмы агентов включало разработку "модулей" ИИ для интерактивных мультимодальных агентов, использующих либо большую языковую модель (LLM), либо визуальную языковую модель (VLM). Наши начальные модули Агента способствуют обучению или контекстному обучению и имеют минималистичный дизайн, направленный на демонстрацию способности Агента к эффективному планированию и координации. Мы также изучили начальные методы запоминания, основанные на подсказках, которые помогают лучше планировать и информируют о будущих методах работы в полевых условиях. Чтобы проиллюстрировать это, наша инфраструктура "MindAgent" состоит из 5 основных модулей: 1) осознание окружающей среды с планированием задач, 2) обучение агента, 3) память, 4) общее предсказание действий агента и 5) познание, как показано на рисунке 5.
4.2.2 Инфраструктура агентов
Агентный ИИ - это большое и быстро растущее сообщество в сфере развлечений, исследований и промышленности. Разработка крупномасштабных базовых моделей значительно повысила производительность систем агентного ИИ. Однако создание агентов таким способом ограничено растущим объемом работы и общей стоимостью, необходимой для создания высококачественных наборов данных. В Microsoft создание высококачественной инфраструктуры агентов оказало значительное влияние на мультимодальное совместное пилотирование агентов благодаря использованию передового оборудования, разнообразных источников данных и надежных библиотек программного обеспечения. Поскольку Microsoft продолжает расширять границы технологии Агентов, платформа ИИ-Агентов, как ожидается, будет оставаться доминирующей силой в мультимодальном интеллекте в течение многих лет. Тем не менее, взаимодействие агентов с ИИ в настоящее время остается сложным процессом, требующим сочетания навыков. Последние достижения в области крупномасштабного генеративного моделирования ИИ могут значительно сократить затраты и время, необходимые в настоящее время для создания интерактивного контента, как для крупных студий, так и для небольших независимых создателей контента, которые смогут разрабатывать высококачественный опыт, выходящий за рамки их текущих возможностей. Мультимодальные агенты внутри Современные системы HCI в основном основаны на правилах. Они обладают интеллектуальным поведением, реагируют на действия человека/пользователя и обладают определенной степенью знаний о сети. Однако эти взаимодействия часто ограничены стоимостью разработки программного обеспечения, что не позволяет реализовать в системе конкретные модели поведения. Кроме того, существующие модели не предназначены для помощи пользователям в достижении их целей в ситуациях, когда они не могут выполнить конкретную задачу. Поэтому необходима инфраструктура системы агентского искусственного интеллекта для анализа поведения пользователей и предоставления соответствующей поддержки в случае необходимости.
4.3 Базовые модели на основе агентов (уровни предварительного обучения и тонкой настройки)
Использование предварительно обученных базовых моделей дает значительные преимущества с точки зрения широкой применимости в различных случаях использования. Интеграция этих моделей позволяет разрабатывать индивидуальные решения для широкого круга приложений, что избавляет от необходимости готовить большие наборы меченых данных для каждой конкретной задачи.
Ярким примером в области навигации является система LM-Nav Shah et al. (2023a), которая объединяет GPT-3 и CLIP в новом подходе. Она эффективно использует текстовые ориентиры, сгенерированные языковой моделью, привязывая их к изображениям, полученным роботом, для навигации. Этот подход демонстрирует бесшовное слияние текстовых и визуальных данных, значительно повышая способность робота к навигации и сохраняя при этом широкую применимость.
В нескольких исследованиях, посвященных манипулированию роботами, предлагается использовать готовые LLM (например, ChatGPT) вместе с детектором объектов с открытым словарем. Комбинация LLM и детекторов объектов высокого уровня (например, Detic Zhou et al. (2022)) может помочь понять команды человека, размещая текстовую информацию внутри сцены Parakh et al. (2023). ). Кроме того, последние достижения демонстрируют потенциал использования инженерии подсказок в сочетании с продвинутыми мультимодальными моделями, такими как GPT-4V(ision) Wake et al. (2023b). Эта техника открывает путь к мультимодальному планированию задач, подчеркивая универсальность и адаптивность предварительно обученных моделей в различных условиях.
5 Классификация агентского ИИ
5.1 Общий домен агента
Компьютерные действия и обобщенные агенты (GA) полезны для решения многих задач. Последние достижения в области крупномасштабных базовых моделей и интерактивного ИИ открыли новые возможности для ГА. Однако, чтобы ГА были действительно ценными для пользователей, они должны легко взаимодействовать с ними и обобщаться для широкого спектра сред и условий. Мы качественно расширяем основные главы раздела 6, посвященные агент-ориентированному ИИ, особенно в областях, связанных с этими темами в целом:
Multimodal Agent AI (MMA) - это предстоящий форум ^1^^^1^ Текущий URL: https://multimodalagentai.github.io/ для наших исследовательских и промышленных сообществ, чтобы взаимодействовать друг с другом и с более широким сообществом исследователей и технологий агентного ИИ. Недавние достижения в области крупномасштабных фундаментальных моделей и интерактивного ИИ позволили создать новые возможности для агентов общего назначения (АОН), такие как предсказание поведения пользователя и планирование задач в ограниченных условиях (например, MindAgent Gong et al. (2023a), тонкое мультимодальное понимание видео Luo et al. (2022), робототехника Ahn et al. (2022b); Brohan et al. (2023)), или предоставление пользователям чат-компаньонов, содержащих обратную связь со знаниями (например, веб-поддержка клиентов в системах здравоохранения Peng et al. (2023)). Более подробная информация о репрезентативных и недавних работах представлена ниже. Мы надеемся обсудить наше видение будущего MAA и вдохновить будущих исследователей на работу в этой области. Эта статья и наш форум охватывают следующие основные темы, но не ограничиваются ими:
- Основные темы: Мультимодальный агентский ИИ, общий агентский ИИ
- Вторичная тема: Воплощенные агенты, агенты движения, агенты на основе языка, визуальные и лингвистические агенты, агенты знаний и рассуждений, агенты для игр, робототехники, здравоохранения и т.д.
- Расширенная тема: Визуальная навигация, симулированные среды, перестройка, агент-ориентированные модели, VR/AR/MR, воплощенное зрение и язык.
Далее мы перечислим следующие репрезентативные категории агентов:
5.2 Поссессивный агент
Наш биологический мозг существует в нашем теле, а наше тело движется в постоянно меняющемся мире. Цель воплощенного ИИ - создать агентов, таких как роботы, которые научатся творчески решать сложные задачи, требующие взаимодействия с окружающей средой. Несмотря на то, что это огромная задача, значительные достижения в области глубокого обучения и растущая доступность больших наборов данных, таких как ImageNet, позволили добиться сверхчеловеческой производительности в широком спектре задач ИИ, которые ранее считались трудновыполнимыми. Компьютерное зрение, распознавание речи и обработка естественного языка претерпели революционные изменения в задачах пассивного ввода-вывода, таких как перевод языка и классификация изображений, а обучение с подкреплением достигло мирового уровня в интерактивных задачах, таких как игры. Эти достижения дают мощный импульс для развития воплощенного ИИ, позволяя все большему числу пользователей быстро перейти к созданию интеллектуальных агентов, способных взаимодействовать с машинами.
5.2.1 Агент действия
Агенты действия - это агенты, которым необходимо выполнять физические действия в симулированной физической среде или в реальном мире; в частности, они должны активно взаимодействовать с окружающей средой. Мы классифицируем агентов действия по двум различным категориям, основанным на областях их применения: игровой ИИ и робототехника.
В игровом ИИ агент будет взаимодействовать с игровой средой и другими независимыми объектами. В таких условиях естественный язык обеспечивает беспрепятственное общение между агентом и человеком. В зависимости от игры, в ней может быть определенное задание, которое необходимо выполнить, чтобы получить реальное вознаграждение. Например, в соревновательной дипломатической игре обучение языковой модели на основе данных о диалогах с людьми и стратегиях действий с помощью обучения с подкреплением может обеспечить человеческий уровень игры Meta Fundamental AI Research Diplomacy Team et al. (2022) Meta Fundamental AI Research (FAIR ) Diplomacy Team, Bakhtin, Brown, Dinan, Farina, Flaherty, Fried, Goff, Gray, Hu, et al. (FAIR).
В некоторых случаях агенты будут вести себя как обычные жители города Park et al. (2023a), не пытаясь оптимизироваться для достижения конкретной цели. Базовые модели полезны в таких ситуациях, поскольку они могут имитировать более естественное взаимодействие, подражая поведению человека. Если дополнить их внешней памятью, получаются убедительные агенты, которые могут вести диалог, планировать повседневные действия, строить отношения и жить виртуальной жизнью.
5.2.2 Интерактивный агент
Интерактивные агенты просто относятся к агентам, которые могут взаимодействовать с миром, что является более широким классом агентов, чем агенты действия.Их форма взаимодействия не обязательно требуетфизиотерапиядействия, но может включать в себя передачу информации пользователю или изменение среды. Например, воплощенный интерактивный агент может отвечать на вопросы пользователя по теме посредством диалога или помогать ему разбирать имеющуюся информацию, подобно чат-боту. Расширив возможности агента за счет обмена информацией, можно эффективно адаптировать основной дизайн и алгоритмы агентного ИИ к целому ряду приложений, таких как диагностика Lee et al. (2023) и поиск знаний Agent Peng et al.
5.3 Агент моделирования и окружающей среды
Эффективным способом обучения агента ИИ действиям в среде является опыт многократных пробных взаимодействий с ней. Хотя существуют методы, использующие физических агентов (Kalashnikov et al., 2018), использование физических агентов требует много времени и средств. Кроме того, когда сбои в реальной среде могут быть опасными (например, автономное вождение, подводные транспортные средства), обучение в физической среде часто нецелесообразно. Поэтому использование симуляторов для изучения стратегий является распространенным подходом.
Для исследований воплощенного ИИ был предложен ряд платформ для моделирования, начиная от навигации Tsoi et al. (2022); Deitke et al. (2020); Kolve et al. (2017) и заканчивая манипулированием объектами Wang et al. (2023d); Mees et al. (2022); Yang et al. (2023a); Ehsani et al. (2021). Одним из примеров является Habitat Savva et al. (2019); Szot et al. (2021), которая предоставляет трехмерную внутреннюю среду, в которой человеческие и роботизированные агенты могут выполнять различные задачи, такие как навигация, выполнение команд и ответы на вопросы. Другой репрезентативной платформой для моделирования является VirtualHome Puig et al. (2018), которая поддерживает человеческие аватары для манипулирования объектами в трехмерной внутренней среде. В игровой области Кэрролл и др. представили "Overcooked-AI", эталонную среду, разработанную для изучения совместных задач между людьми и ИИ Carroll et al. (2019). Аналогичным образом, некоторые работы направлены на включение реального вмешательства человека, а не только на взаимодействие агента и среды Puig et al. (2023); Li et al. (2021a); Srivastava et al. (2022). Эти симуляторы способствуют обучению политике в реальных средах, включающих взаимодействие агента и робота, а также обучению политике на основе IL с использованием демонстрационных действий человека.
В некоторых случаях процесс обучения стратегиям может потребовать интеграции специализированных функций в симулятор. Например, при обучении стратегиям, основанным на изображениях, часто требуется реалистичный рендеринг для облегчения адаптации к реальным условиям Mittal et al. (2023); Zhong et al. (2023). Использование реалистичного механизма рендеринга эффективно для создания изображений, отражающих различные условия (например, освещение). Кроме того, симуляторы, использующие физические движки, необходимы для моделирования физических взаимодействий с объектами Liu and Negrut (2021). Интеграция физических движков в симуляторы оказалась полезной для приобретения навыков, применимых к реалистичным сценариям Saito et al. (2023).
5.4 Генеративный агент
Последние достижения в области крупномасштабных генеративных моделей ИИ способны значительно снизить стоимость и время, требуемые в настоящее время для создания интерактивного контента, как для крупных игровых студий, так и для небольших независимых студий, чтобы создать высококачественный опыт, превышающий их текущие возможности. Кроме того, встраивание крупномасштабных моделей ИИ в среду "песочницы" позволит пользователям создавать собственные впечатления и проявлять свои творческие способности таким образом, который в настоящее время невозможен.
Цель этого агента - не просто добавить интерактивный 3D-контент в сцену:
- Добавляйте к объектам произвольные правила поведения и взаимодействия, позволяя пользователям создавать собственные правила VR с минимальным количеством подсказок.
- Вся геометрия уровня генерируется из эскизов на бумаге с помощью мультимодальных моделей GPT4-v, а также других цепочек моделей, включающих визуальные модели AI.
- Ретекстурирование содержимого сцены с помощью диффузионной модели
- Создание пользовательских шейдеров и визуальных эффектов с помощью простых пользовательских подсказок
Одно из потенциальных краткосрочных применений - инструменты для создания раскадровки/прототипирования VR, позволяющие одному пользователю создать грубый (но полностью функциональный) набросок опыта/игры на порядок быстрее, чем это возможно в настоящее время. Затем такой прототип может быть расширен и улучшен с помощью этих инструментов.
5.4.1 Агент AR/VR/смешанной реальности
В настоящее время AR/VR/Mixed Reality (в совокупности XR) требует привлечения квалифицированных художников и аниматоров для создания персонажей, окружения и объектов для моделирования взаимодействия в виртуальном мире. Это дорогостоящий процесс, включающий концепт-арт, 3D-моделирование, текстурирование, привязку и анимацию. XR Agent может помочь в этом процессе, облегчая взаимодействие между создателями и создавая инструменты, которые помогают построить конечную виртуальную среду.
Наши первые эксперименты показали, что модели GPT можно использовать (без дополнительной тонкой настройки) в механизме sample less в движке Unity для вызова специфических для движка методов, используя вызовы API для загрузки 3D-моделей из Интернета и размещения их в сцене, а также назначая им деревья состояний для поведения и анимации Huang et al. (2023a). Такое поведение могло возникнуть из-за наличия аналогичного кода в репозиториях игр с открытым исходным кодом, использующих Unity. В результате модель GPT способна создавать богатые визуальные сцены, загружая множество объектов в сцену на основе простых подсказок пользователя.
Цель этого класса агентов - создать платформу и набор инструментов, обеспечивающих эффективный интерфейс между большими моделями ИИ (семейство моделей GPT, а также модели диффузных изображений) и движками рендеринга. Мы исследуем два основных направления:
- Интегрируйте большие модели в различные инструменты редактора в инфраструктуре Agent, чтобы значительно ускорить разработку.
- Управление движком рендеринга из пользовательского опыта путем генерации кода, который следует инструкциям пользователя и компилируется во время выполнения, что позволяет пользователям редактировать VR/симуляцию, с которой они взаимодействуют, любым способом и даже внедрять новые механизмы агента.
Внедрение второго пилота с искусственным интеллектом, ориентированного на настройку XR, будет полезно для создателей XR, которые смогут использовать второго пилота для выполнения утомительных задач, таких как предоставление простых активов или написание примеров кода, что позволит создателям сосредоточиться на своем творческом видении и быстро итерировать идеи.
Кроме того, агенты могут помогать пользователям интерактивно изменять окружение, добавляя новые объекты, изменяя динамику среды или создавая новые настройки. Такая форма динамической генерации во время выполнения может быть задана создателем, чтобы пользовательский опыт был свежим и развивался со временем.
5.5 Интеллект, основанный на знаниях и логических рассуждениях
Способность рассуждать и применять знания является определяющей характеристикой человеческого познания и особенно проявляется в таких сложных задачах, как логический вывод и понимание теорий разума ^2^^2^https://plato.stanford.edu/entries/cognitive-science. Рассуждения о знаниях обеспечивают соответствие реакций и поведения ИИ известным фактам и логическим принципам. принципами. Эта согласованность является ключевым механизмом для поддержания доверия и надежности в системах ИИ, особенно в таких критически важных приложениях, как медицинская диагностика или юридический анализ. Здесь мы представляем ряд интеллектов, которые сочетают в себе взаимодействие между знаниями и рассуждениями и которые разработаны для решения конкретных аспектов интеллекта и рассуждений.
5.5.1 Интеллект знаний
Интеллектуалы, обладающие знаниями, рассуждают о приобретенных ими системах знаний двумя способами: имплицитно и эксплицитно. Неявные знания - это, как правило, знания, заложенные в большие языковые модели, такие как семейство GPT Brown et al. (2020); OpenAI (2023), после обучения на больших объемах текстовых данных. Эти модели могут генерировать ответы, создающие впечатление понимания, поскольку они используют шаблоны и информацию, неявно усвоенную в процессе обучения. В отличие от этого, явные знания структурированы и могут быть запрошены напрямую, как, например, информация, содержащаяся в базах знаний или базах данных, и традиционно дополняют рассуждения ИИ ссылками на поддающиеся проверке внешние ресурсы.
Несмотря на достижения в области языковых моделей, их неявные знания статичны и устаревают по мере развития мира Lewis et al. (2020); Peng et al. (2023). Это ограничение делает необходимым интеграцию постоянно обновляемых источников явных знаний, чтобы системы ИИ могли давать точные и актуальные ответы. Интеграция неявных и явных знаний наделяет ИИ-интеллекты более тонким пониманием и способностью применять знания в контексте, подобно человеческому интеллекту Gao et al. (2022). Такая интеграция крайне важна для создания ИИ-интеллектов, ориентированных на знания, которые не только обладают информацией, но и могут понимать, интерпретировать и использовать ее, преодолевая разрыв между экстенсивным обучением и глубокими знаниями (Marcus and Davis, 2019; Gao et al., 2020). Эти интеллекты призваны рассуждать гибко, опираясь на динамическую информацию о мире, что повышает их устойчивость и адаптивность (Marcus, 2020).
5.5.2 Логический интеллект
Как правило, логические интеллекты - это компоненты системы, предназначенные для применения логических рассуждений для обработки данных или решения задач, связанных с логическими рассуждениями или логической аргументацией. В контексте большой базовой модели, такой как GPT-4, логические интеллекты относятся к специализированным компонентам или субмодулям, предназначенным для решения задач логического мышления. Эти задачи обычно включают в себя понимание и манипулирование абстрактными понятиями, вывод выводов из заданных предпосылок или решение проблем, требующих структурированного, логического подхода. В широком смысле базовые модели, такие как GPT-4, обучаются на больших массивах текстовых данных и учатся выполнять различные задачи, в том числе требующие логических рассуждений в той или иной форме. Таким образом, их возможности логического мышления интегрированы в общую архитектуру, и они, как правило, не имеют отдельных, изолированных "логических интеллектов". Хотя GPT-4 и подобные модели могут выполнять задачи, связанные с логикой, их подход в корне отличается от того, как действуют люди или традиционные системы, основанные на логике. Они не следуют формальным логическим правилам и не имеют явного понимания логики; вместо этого они генерируют ответы на основе шаблонов, полученных из обучающих данных. В результате их производительность в логических задачах может быть впечатляющей, но может быть и непоследовательной или ограниченной в силу характера обучающих данных и присущих модели ограничений. Примером встраивания отдельного логического субмодуля в архитектуру является работа (Wang et al., 2023e), которая модифицирует процесс встраивания токенов, используемый LLM во время предварительного обучения, путем разбора текста на логические сегменты и явного моделирования логической иерархии в встраивании токенов.
5.5.3 Интеллигенция для эмоциональных рассуждений
Эмоциональное понимание и эмпатия - важные навыки, которыми интеллектуалы должны обладать во многих взаимодействиях между человеком и компьютером. Чтобы проиллюстрировать этот тезис, важной целью создания привлекательных разговорных интеллектов является проявление интеллектами больших эмоций и сопереживания во время их действий, при этом минимизируя социально неуместные или оскорбительные действия. Чтобы продвинуть эту цель для разговорных интеллектов, мы публикуем обзор нейроизображений с эмпатией (NICE), который содержит около 2 миллионов изображений вместе с соответствующими комментариями, сгенерированными вручную, и набором аннотаций человеческих настроений. Мы также предоставляем новую предварительно обученную модель для моделирования генерации настроений для комментариев к изображениям (MAGIC) Chen et al. (2021) - нацелен на создание комментариев к изображениям, обусловленных лингвистическими представлениями, которые передают стиль и эмоции и помогают генерировать комментарии, которые более сопереживательны, эмоциональны, увлекательны и социально приемлемы. Наши эксперименты показывают, что этот подход эффективен для обучения более человекоподобных и вовлекающих интеллектов, комментирующих изображения. Развитие интеллекта, учитывающего эмпатию, является перспективным направлением развития интерактивного интеллекта, и важно создать интеллект с эмоциональным пониманием для широкого круга групп и популяций, особенно учитывая, что многие современные языковые модели демонстрируют смещение в понимании эмоций и способности к эмпатическому рассуждению Mao et al. (2022); Wake et al. (2023d).
5.5.4 Нейро-символический интеллект
Нейросимволические интеллекты оперируют гибридными системами нейронов и символов d'Avila Garcez и Lamb (2020). Решение проблемы репрезентации естественного языка - сложная задача, поскольку она требует явного захвата дискретной символьной структурной информации, неявно присутствующей во входных данных. Однако большинство моделей нейронных последовательностей общего назначения не фиксируют такую структурную информацию в явном виде, что ограничивает их эффективность при решении этих задач. В работе Чена и др. (2020) предлагается новая модель кодера-декодера, основанная на структурированных нейронных репрезентативных интеллектах. Кодер TP-N2F использует TPR "связывание Кодер TP-N2F использует TPR "связывание" для кодирования символьных структур естественного языка в векторном пространстве, а декодер использует TPR "развязывание" для генерации последовательных программ, представленных реляционными кортежами в символьном пространстве, где каждый кортеж содержит отношение (или операцию) и некоторые параметры.
Модели визуального языка (ВЯ), такие как GPT-4, основанные на командах, обеспечивают гибкий интерфейс, поддерживающий широкий спектр мультимодальных задач с нулевой выборкой. Однако интерфейсы, работающие с полными изображениями, не позволяют пользователю напрямую "указывать" и получать доступ к конкретным областям изображения. Эта возможность важна не только для поддержки эталонных VL-эталонов, но и для реальных приложений, требующих точных рассуждений по изображению. В работе (Park et al., 2023b) мы построили локальную модель визуального восприятия, которая позволяет пользователям указывать (несколько) регионов в качестве входных данных. Мы обучили нашу модель путем выборки локальных понятийных знаний из Большой языковой модели (LLM): в частности, мы попросили LLM собрать понятийные знания на основе глобальных буквальных описаний изображений и набора локальных буквальных описаний регионов, автоматически сгенерированных моделью VL. Процесс масштабируется и полностью автоматизирован, так как нет необходимости в выравнивании или написании вручную пар изображений и текстов. Путем индивидуального обучения обзорной модели на отобранных высококачественных примерах мы обнаружили, что обучение на локальном корпусе общих знаний, расширенных только за счет изображений, позволяет успешно совершенствовать существующие модели VL для поддержки интерфейсов, использующих цитаты в качестве входных данных. Эмпирические результаты в условиях нулевой выборки и ручная оценка показывают, что наш подход к усовершенствованию позволяет получить более точные модели VL с выводами по сравнению с базовым уровнем сгенерированных референциальных выражений.
5.6 Большие языковые модели и интеллект визуального языкового моделирования
Во многих работах большие языковые модели используются в качестве интеллекта для планирования задач (Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a), а также используются знания домена в масштабах Интернета и возможности планирования с нулевой выборкой больших языковых моделей для выполнения таких интеллектуальных задач, как планирование и вывод. задачи. В последних исследованиях в области робототехники большие языковые модели также используются для планирования задач (Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022) путем декомпозиции команд на естественном языке на ряд подзадач в виде естественного языка или кода Python, которые затем выполняются с помощью низкоуровневых контроллеров. Кроме того, Хуанг и др. (2022b), Лян и др. (2022) и Ванг и др. (2023a) также интегрируют обратную связь с окружающей средой для улучшения выполнения задач. Существует также множество работ, демонстрирующих, что общие визуально согласованные большие языковые модели, обученные на больших текстовых, графических и видеоданных, могут быть использованы в качестве основы для создания мультимодальных интеллектов, которые могут воплощаться и действовать в различных средах Baker et al. (2022); Driess et al. (2023); Brohan et al.
6 Задачи применения искусственного интеллекта тела
![Agent AI: 探索多模态交互的边界-2 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/51782170a54f914.png)
Рисунок 8: Моделирование и генерация ощущений игрового процесса в подземелье Minecraft с помощью GPT-4V для воплощенных интеллектов, позволяющих прогнозировать действия пользователя в интерактивной игре и редактировать взаимодействие.
6.1 Игровой интеллект
Игра представляет собой уникальную "песочницу" для тестирования поведения интеллектов как из большой языковой модели, так и из визуальной языковой модели, расширяя границы их способности к сотрудничеству и принятию решений. В частности, мы описываем три области, которые подчеркивают способность интеллектов взаимодействовать с игроками и другими интеллектами и предпринимать осмысленные действия в окружающей среде.
6.1.1 Поведение NPC
В современных игровых системах поведение неигровых персонажей (NPC) во многом определяется предопределенными скриптами, написанными разработчиками. Эти скрипты содержат набор реакций и взаимодействий, основанных на различных триггерах или действиях игрока в игровом окружении. Однако такая сценарная природа часто приводит к предсказуемому или повторяющемуся поведению NPC, которое не изменяется в зависимости от действий игрока или динамичного окружения игры. Такая негибкость препятствует получению впечатлений, ожидаемых от динамичной игровой среды. В связи с этим растет интерес к использованию больших языковых моделей для создания автономности и адаптивности поведения NPC, чтобы сделать взаимодействие более тонким и увлекательным. NPC, управляемые искусственным интеллектом, могут учиться на поведении игроков, адаптироваться к различным стратегиям и обеспечивать более сложный и непредсказуемый игровой опыт. Большие языковые модели (LLM) могут внести значительный вклад в эволюцию поведения NPC в играх. Обрабатывая большие объемы текста, LLM могут изучать шаблоны и генерировать более разнообразные и похожие на человеческие реакции. Их можно использовать для создания динамических диалоговых систем, которые делают взаимодействие с NPC более увлекательным и менее предсказуемым. Кроме того, большие языковые модели можно обучать на основе отзывов игроков и игровых данных, чтобы постоянно улучшать поведение NPC, чтобы оно лучше соответствовало ожиданиям игроков и динамике игры.
6.1.2 Взаимодействие NPC с человеком и машиной
Взаимодействие между игроком и NPC является ключевым аспектом игрового опыта. Традиционные модели взаимодействия в основном одномерны, NPC реагируют на действия игрока заранее определенным образом. Это ограничение сдерживает потенциал для более естественного и богатого взаимодействия (похожего на взаимодействие человека с человеком) в виртуальной сфере. Появление технологий Big Language Modelling и Visual Language Modelling обещает изменить эту парадигму. Используя эти технологии, игровые системы могут анализировать и изучать поведение людей, чтобы обеспечить более человекоподобное взаимодействие. Это не только повышает реалистичность и вовлеченность в игры, но и создает платформу для изучения и понимания взаимодействия человека и компьютера в контролируемых, но сложных средах.
![Agent AI: 探索多模态交互的边界-3 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/8e683187a00e5d4.png)
Рисунок 9: GPT-4V эффективно предсказывает следующие ходы высокого уровня, когда в подсказке указаны "история движения" и "цель игры". Кроме того, GPT-4V точно распознает, что игрок держит в руке деревянное полено, и может включить эту воспринимаемую информацию в свои будущие планы действий. Хотя GPT-4V, похоже, может предсказывать некоторые низкоуровневые действия (например, нажатие клавиши "E" для открытия рюкзака), результаты модели по своей сути не подходят для примитивного предсказания низкоуровневых действий (включая движения мыши) и могут потребовать дополнительных модулей для управления низкоуровневыми действиями.
6.1.3 Анализ интеллектуальных игр на основе тела
Игры являются неотъемлемой частью повседневной жизни и привлекают примерно половину населения планеты https://www.dfcint.com/global-video-game-audience-reaches-3-7-billion/. Кроме того, они оказывают положительное влияние на психическое здоровье https://news.microsoft.com/source/features/work-life/mind-games-how-gaming-can-play-a-positive-role-in-mental-. здоровье/. Однако современные игровые системы имеют недостатки во взаимодействии с игроками-людьми, поскольку их поведение в значительной степени создается разработчиками игр вручную. Запрограммированное поведение часто не может быть адаптировано к потребностям игрока. Поэтому в играх необходимы новые системы искусственного интеллекта, способные анализировать поведение игрока и при необходимости оказывать ему соответствующую поддержку. Интеллектуальные системы взаимодействия способны произвести революцию в способах взаимодействия геймеров с игровыми системами. Взаимодействие NPC с геймерами больше не ограничивается ограниченным набором правил, разработанных разработчиками игр. Они способны легко адаптироваться к опыту геймера, обеспечивая своевременную обратную связь, чтобы обогатить игровой опыт и усилить синергию взаимодействия человека и компьютера.
Большие языковые модели могут стать мощным инструментом для анализа внутриигровых текстовых данных, включая стенограммы чатов, отзывы игроков и содержание повествований. Они помогают выявить закономерности в поведении, предпочтениях и взаимодействии игроков, что может оказаться бесценным для разработчиков игр при улучшении игровой механики и повествования. Кроме того, визуальные языковые модели могут анализировать большие объемы изображений и видеоданных из игровых сессий, чтобы помочь проанализировать намерения и действия пользователей в игровом мире. Кроме того, большие языковые модели и визуальные языковые модели могут способствовать разработке интеллектуальных внутриигровых интеллектов, которые могут общаться с игроком и другими интеллектами сложным и человекоподобным образом, тем самым улучшая общий игровой опыт. В дополнение к большим языковым моделям и визуальным языковым моделям, данные пользовательского ввода предлагают перспективное направление для создания игровых интеллектов, которые моделируют восприятие, игровой процесс и понимание игры, подражая игрокам. Сочетая взаимодействие с игроком и обратную связь, пиксельный ввод, планирование и понимание естественного языка, интеллектуальные модели тела могут помочь постоянно улучшать динамику игры, тем самым заставляя игровые среды развиваться в более ориентированной на игрока манере.
6.1.4 Синтез игровой сцены
![Agent AI: 探索多模态交互的边界-3 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/0b63e575812de0a.png)
Рис. 10: Предсказание видео с маской на не просматриваемом видео Minecraft. Слева направо: исходный кадр, кадр с маской, реконструированный кадр и реконструированный кадр с патчем.
Композитинг сцен - важная часть создания и улучшения иммерсивного игрового окружения. Он подразумевает автоматическую или полуавтоматическую генерацию трехмерных (3D) сцен и окружения в игре. Этот процесс включает в себя генерирование местности, размещение объектов, создание реалистичного освещения, а иногда и динамических погодных систем.
В современных играх часто встречаются огромные пространства с открытым миром. Проектирование таких ландшафтов вручную может занимать много времени и ресурсов. Автоматизированная генерация рельефа (часто с использованием процедурных или управляемых искусственным интеллектом методов) может создавать сложные реалистичные ландшафты без особого вмешательства человека. Большие языковые модели и визуальные языковые модели могут использовать знания интернет-масштаба для разработки правил проектирования визуально впечатляющих и уникальных неповторяющихся ландшафтов. Кроме того, Большие лингвистические модели и Визуальные лингвистические модели можно использовать для обеспечения семантической согласованности и вариативности создаваемых объектов. Реалистичное и эстетически привлекательное размещение объектов, таких как здания, растительность и другие элементы в сцене, имеет решающее значение для погружения в игру.
![Agent AI: 探索多模态交互的世界[李飞飞-经典必读]-1 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/dad22c0f828f9a2.png)
Рисунок 11: Низкоуровневое предсказание следующего действия с помощью предварительно обученной модели малых интеллектов в сценарии игры Minecraft.
Визуальные языковые модели и большие языковые модели могут помочь с размещением объектов, следуя заранее определенным или изученным правилам и эстетике, что ускоряет процесс проектирования уровней. Визуальные языковые модели и модели большого языка могут быть дополнительно обучены принципам дизайна и эстетики, чтобы помочь процедурно генерировать контент. Они могут помочь разработать правила или рекомендации, которым процедурные алгоритмы могут следовать, чтобы генерировать объекты и сцены, визуально привлекательные и уместные в контексте.
Реалистичное освещение и атмосферные эффекты - основа для создания правдоподобного и увлекательного игрового окружения. Передовые алгоритмы могут имитировать естественные условия освещения и динамические погодные эффекты, чтобы повысить реалистичность и атмосферу сцены. Большие языковые модели могут помочь разработать системы для достижения более реалистичного освещения и атмосферных эффектов несколькими инновационными способами. Визуальные языковые модели могут анализировать большие массивы данных о реальных условиях освещения и атмосферы, чтобы помочь разработать более реалистичные алгоритмы для моделирования этих эффектов в играх. Понимая закономерности и сложность естественного освещения и погоды, эти модели могут способствовать разработке алгоритмов, в точности имитирующих реальность. Большие языковые модели и модели визуального языка также могут использоваться для разработки систем, которые в реальном времени регулируют освещение и атмосферные эффекты в зависимости от действий игрока, состояния игры или внешних данных. Они могут обрабатывать команды игрока на естественном языке, чтобы изменять игровое окружение для обеспечения более интерактивного и захватывающего опыта.
6.1.5 Эксперименты и результаты
Обучение с нулевой/малой выборкой с использованием большой языковой модели или визуальной языковой модели.
Как показано на рисунках 8 и 9, мы используем GPT-4V для высокоуровневого описания и предсказания действий. На рисунке 8 показаны качественные примеры использования GPT-4V для создания описаний и редактирования действий. Интеллектуальный текст, дополненный телом, открывает новый способ генерации 3D-сцен с априорным использованием игровых действий, что помогает улучшить естественность сцены. В результате GPT-4V генерирует релевантные высокоуровневые описания, связанные с игровым видео.
Модели предварительного обучения для малых интеллектов.
Чтобы продемонстрировать нашу архитектуру визуального языка для интеллектуальных объектов, мы сначала исследуем ее применение для предварительного обучения на данных Minecraft - области, широко используемой для создания игровых интеллектуальных объектов. Как показано на рис. 7, при наличии входных действий интеллектуального тела, ключевых кадров видео и соответствующего текста, действия интеллектуального тела и изображения могут быть преобразованы в токен текста действия и токен патча изображения с помощью стандартного кодера-декодера, которые затем могут быть преобразованы в предложения предсказания действия с помощью декодера визуального языка интеллектуального тела. Общая архитектура показана на рисунке 7. Мы оцениваем наш подход на примере нескольких демоверсий Minecraft. Видеоданные Minecraft состоят из 5-минутных клипов, а видео, которое мы используем для предварительного обучения, содержит 78K видео, и мы используем 5K видео (что составляет 6% от данных предварительного обучения) для первого раунда предварительного обучения. Мы обучаем модель с 250 миллионами параметров на 16 графических процессорах NVIDIA v100 в течение одного дня и визуализируем результаты работы модели на рисунках 10 и 11. На рисунке 10 показано, что наша относительно небольшая архитектура smartbody может генерировать разумные результаты для сцен Minecraft, которые не были видны во время обучения. На рисунке 11 показано сравнение предсказаний модели с реальными действиями игрока-человека, демонстрирующее потенциал низкоуровневого восприятия нашей небольшой модели интеллектуального тела.
![Agent AI: 探索多模态交互的边界-5 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/f1d9e9333ec6a9c.png)
Рисунок 12: Игровая инфраструктура MindAgent для контекстного обучения. навыки планирования и использования инструментов: игровые среды требуют разнообразных навыков планирования и использования инструментов для выполнения заданий. Он генерирует соответствующую игровую информацию и преобразует игровые данные в структурированный текстовый формат, который может быть обработан Большой языковой моделью. Большие языковые модели: основной рабочий механизм нашей инфраструктуры, принимающий решения и выступающий в роли диспетчера для мультиинтеллектуальных систем организма. История памяти: утилиты для хранения релевантной информации. Модуль действий: извлекает действия из текстового ввода и преобразует их в язык, специфичный для данной области, а также проверяет DSL, чтобы не допустить ошибок во время выполнения.
Мультиинтеллектуальная инфраструктура тела.
Как показано в парадигме интеллектуального тела на рис. 5, мы разработали новую инфраструктуру для нового игрового сценария под названием "CuisineWorld" Gong et al. (2023a). Мы подробно описываем наш подход на рисунке 12. Наша инфраструктура позволяет взаимодействовать нескольким интеллектам, используя GPT-4 в качестве центрального планировщика и работая в нескольких игровых доменах. Мы исследуем возможности системы по планированию с участием нескольких интеллектов и внедряем инфраструктуру в реальную видеоигру, чтобы продемонстрировать эффективность ее мультиинтеллектуального и человеко-компьютерного взаимодействия. Кроме того, мы демонстрируем "Cuisineworld", текстовый бенчмарк для мультиинтеллектуального сотрудничества, который предоставляет новую автоматизированную метрику Collaboration Score (CoS) для количественной оценки эффективности сотрудничества.
Другие примеры и подробные описания игр, высокоуровневые предсказания действий и подсказки GPT-4V приведены в Приложении. Мы приводим примеры для Bleeding Edge, см. Рисунок 32 и Приложение B; Microsoft Flight Simulator, см. Рисунок 33 и Приложение C; ASSASSIN's CREED ODYSSEY, см. Рисунок 34 и Приложение D; GEARS of WAR 4, см. Рисунок 35 и Приложение E; и Starfield. См. Рисунок 35 и Приложение E; и пример Starfield, см. Рисунок 36 и Приложение F. Мы также предоставляем подробные снимки экрана процесса подсказки GPT4V, используемого для генерации примера Minecraft, см. Рисунок 31 и Приложение A.
6.2 Робототехника
Роботы - это типичные интеллекты, которым необходимо эффективно взаимодействовать с окружающей средой. В этом разделе мы представим ключевые элементы эффективного управления роботами, рассмотрим темы исследований, в которых применялись новейшие методы моделирования больших языков/визуального моделирования языков (LLM/VLM), и поделимся результатами наших недавних исследований.
Визуальное управление движением.
Визуальное управление движением - это интеграция визуального восприятия и моторных действий для эффективного выполнения задач в роботизированной системе. Эта интеграция очень важна, поскольку позволяет роботу интерпретировать визуальные данные из окружающей среды и соответствующим образом корректировать свои двигательные действия для точного взаимодействия с окружающей средой. Например, на сборочной линии робот, оснащенный системой управления движением с помощью технического зрения, может определять положение и ориентацию объектов и точно регулировать манипулятор для взаимодействия с ними. Эта возможность крайне важна для обеспечения точности и эффективности роботизированных операций в самых разных областях применения - от автоматизации промышленности до помощи пожилым людям в повседневных делах. Кроме того, визуальное управление движением помогает роботам адаптироваться к динамичным средам, где состояние окружающей среды может быстро меняться, требуя корректировки действий двигателя в реальном времени на основе визуальной обратной связи.
Кроме того, в контексте безопасной работы визуальная информация имеет решающее значение для обнаружения ошибок при выполнении и определения предварительных и последующих условий для каждого действия робота. В неконтролируемой среде, например, в незнакомой домашней обстановке, роботы с большей вероятностью могут столкнуться с непредвиденными последствиями из-за непредсказуемых факторов, таких как изменение формы мебели, изменение освещения и скольжение. Выполнение заранее спланированных сценариев движения только по принципу обратной связи может представлять значительный риск в таких условиях. Поэтому использование визуальной обратной связи для постоянного подтверждения результатов каждого шага является ключевым фактором обеспечения надежной и прочной работы роботизированной системы.
Операции, обусловленные языком.
Под языковыми условиями работы понимается способность роботизированной системы интерпретировать и выполнять задачи на основе лингвистических инструкций. Этот аспект особенно важен для создания интуитивно понятных и дружественных интерфейсов "человек-робот". С помощью команд на естественном языке пользователь может указывать роботу цели и задачи, аналогичные общению человека с человеком, что снижает порог управления роботизированной системой. Например, в реальном мире пользователь может дать команду сервисному роботу "поднять красное яблоко со стола", и робот разберет эту команду, распознает объект, к которому она относится, и выполнит задачу по подбору объекта Wake et al. (2023c). Основная задача заключается в разработке надежных алгоритмов обработки и понимания естественного языка, которые могут точно интерпретировать широкий спектр инструкций, от прямых команд до более абстрактных инструкций, и позволят роботу перевести эти инструкции в выполнимые задачи. Кроме того, для повышения универсальности и полезности роботов в реальном мире очень важно, чтобы роботы могли обобщать эти инструкции для решения различных задач и в различных условиях. Использование лингвистических данных для планирования задач для роботов получило развитие в робототехнической системе под названием "Планирование задач и движений" (Task and Motion Planning), разработанной Гарреттом и др.
Оптимизация навыков.
Недавние исследования показали эффективность использования моделирования большого языка (LLM) при планировании роботизированных задач. Однако оптимальное выполнение задач, особенно связанных с физическими взаимодействиями, такими как захват, требует более глубокого понимания окружающей среды, чем просто интерпретация инструкций человека. Например, для эффективного выполнения последующих действий роботизированный захват требует точных точек контакта Wake et al. (2023e) и позы руки Sasabuchi et al. (2021). Хотя эти элементы - точные точки контакта и позы рук - интуитивно понятны человеку, выразить их с помощью языка довольно сложно. Несмотря на достижения в области моделирования визуального языка (VLM) в масштабах Интернета, улавливание этих тонких косвенных признаков из сцены и их эффективный перевод в навыки робототехники остается серьезной проблемой. В ответ на это робототехническое сообщество все больше внимания уделяет сбору расширенных наборов данных (например, Wang et al. (2023d); Padalkar et al. (2023)) или разработке методов получения навыков непосредственно из демонстраций человека Wake et al. (2021a). Такие системы, как "Обучение на основе демонстрации" и "Обучение на основе подражания", являются ведущими в этих разработках и играют решающую роль в оптимизации навыков физики.
6.2.1 Большая языковая модель/визуальная языковая модель (LLM/VLM) Intelligentsia для робототехники.
Недавние исследования продемонстрировали потенциал больших языковых моделей/визуальных языковых моделей (LLM/VLM) для роботов-интеллектуалов, взаимодействующих с людьми в окружающей среде. Темы исследований, направленные на использование новейших методов моделирования большого языка/визуального языка (LLM/VLM), включают:
мультимодальная система: В последнее время исследования активно фокусируются на разработке сквозных систем, использующих новейшие технологии моделирования больших языков (LLM) и визуального моделирования языков (VLM) в качестве кодировщиков входной информации. В частности, важным направлением стала модификация этих базовых моделей для обработки мультимодальной информации.Jiang et al. (2022); Brohan et al. (2023, 2022); Li et al. (2023d); Ahn et al. (2022b); Shah et al. (2023b); Li et al. ( 2023e). Эта адаптация направлена на управление действиями робота на основе вербальных команд и визуальных подсказок для эффективного воплощения.
Планирование миссии и обучение навыкам: В отличие от сквозных систем, системы, основанные на планировании задач и движений (TAMP), сначала вычисляют высокоуровневые планы задач, которые затем реализуются с помощью низкоуровневого управления роботом (называемого навыками).
Было показано, что расширенные возможности обработки языка в больших языковых моделях (LLM) способны интерпретировать инструкции и декомпозировать их в шаги действий робота, что значительно улучшает методы планирования задач Ni et al. (2023); Li et al. (2023b); Parakh et al. (2023); Wake et al. (2023c). Для обучения навыкам в нескольких исследованиях изучалось использование моделирования на большом языке (LLM)/визуального моделирования на языке (VLM) для разработки функций вознаграждения Yu et al. (2023a); Katara et al. (2023); Ma et al. (2023), для генерирования данных для обучения стратегиям Kumar et al. (2023); Du et al. 2023), или как часть функции вознаграждения Sontakke et al. (2023). В сочетании с такими механизмами обучения, как обучение с подкреплением и обучение по подражанию, эти усилия помогут разработать эффективные контроллеры для роботов.
Оптимизация на сайте: Выполнение длинных этапов задач в робототехнике может быть затруднено из-за неожиданных и непредсказуемых условий окружающей среды. Поэтому одной из основных задач в области робототехники является динамическая адаптация и совершенствование навыков роботов путем объединения планирования задач с данными об окружающей среде в реальном времени. Например, в работе (Ahn et al., 2022b) предложен метод, который рассчитывает выполнимость (т. е. доступность) действия на основе визуальной информации и сравнивает ее с запланированной задачей. Кроме того, существуют подходы, направленные на то, чтобы позволить большой языковой модели (LLM) выводить предусловия и постусловия (например, состояние объектов и их взаимосвязи) шага задачи, чтобы оптимизировать его выполнение Zhou et al. (2023c) и обнаруживать ошибки предусловий, чтобы вносить необходимые изменения в план задачи Raman et al. (2023). Эти стратегии направлены на достижение экологически ориентированного исполнения роботов путем интеграции информации об окружающей среде и адаптации действий робота на уровне плана задачи или контроллера.
Диалог с интеллигенцией: При создании разговорных роботов большие языковые модели (LLM) могут способствовать естественному, контекстуально релевантному взаимодействию с людьми Ye et al. (2023a); Wake et al. (2023f). Эти модели обрабатывают и генерируют ответы, которые имитируют человеческий диалог, позволяя роботам участвовать в содержательных беседах. Кроме того, большие языковые модели (LLM) играют важную роль в оценке концепций Hensel et al. (2023); Teshima et al. (2022) и аффективных атрибутов Zhao et al. (2023); Yang et al. (2023b); Wake et al. (2023d). Эти атрибуты помогают понять намерения человека и генерировать осмысленные жесты, способствуя естественности и эффективности человеко-компьютерной коммуникации.
Навигация по разумным телам: Навигация роботов имеет долгую историю исследований, сосредоточенных на таких основных аспектах, как планирование пути на основе карты и одновременная локализация и построение карты (SLAM) для создания карт окружающей среды. Эти функции стали стандартными в широко используемом промежуточном программном обеспечении для роботов, таком как Robot Operating System (ROS) Guimarães et al. (2016).
Хотя классические методы навигации по-прежнему широко используются во многих робототехнических приложениях, они, как правило, опираются на статические или заранее созданные карты. В последнее время растет интерес к передовым методам, которые позволяют роботам ориентироваться в более сложных условиях, используя преимущества прорывов в таких областях, как компьютерное зрение и обработка естественного языка. Показательной задачей является объектная навигация Chaplot et al. (2020a); Batra et al. (2020); Gervet et al. (2023); Ramakrishnan et al. (2022); Zhang et al. (2021), где роботы используют названия объектов, а не координаты на карте для навигации. для навигации, что требует визуальной локализации названий объектов в окружающей среде. Кроме того, в последнее время внимание уделяется методам навигации роботов в совершенно незнакомом и новом окружении на основе базовой модели, так называемой объектной навигации с нулевой выборкой (zero-sample object navigation) Gadre et al. (2023); Dorbala et al. (2023); Cai et al. (2023). Кроме того, репрезентативной задачей является визуальная лингвистическая навигация (VLN) Anderson et al. (2018a), где задача включает в себя навигацию интеллектуального тела с помощью команд на естественном языке в ранее невидимой реальной среде Shah et al. (2023a); Zhou et al. (2023a); Dorbala et al. (2022); Liang et al. (2023); Huang et al. (2023b). Визуальная лингвистическая навигация (ВЛН) интерпретирует предложения, а не названия объектов, например, "идите в туалет слева", поэтому требует более высокой функциональности для разбора входного текста Wang et al. (2019).
Появление базовой модели способствовало развитию этой адаптивной техники навигации "на лету" за счет улучшения понимания вербальных команд человека и визуальной интерпретации информации об окружающей среде. Более подробное описание репрезентативных исследований визуальной лингвистической навигации (ВЛН) см. в разделе 6.2.2.
6.2.2 Эксперименты и результаты.
![Agent AI: 探索多模态交互的边界-7 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/5e6a0728b9c2662.png)
Рисунок 13: Обзор роботизированной обучающей системы, в которую интегрирован планировщик задач, управляемый ChatGPT. Процесс состоит из двух этапов: планирование задачи, когда пользователь создает последовательность действий с помощью планировщика задач и корректирует результаты с помощью обратной связи по мере необходимости; и демонстрация, когда пользователь визуально демонстрирует последовательность действий, чтобы предоставить информацию, необходимую для работы робота. Система технического зрения собирает визуальные параметры, которые будут использоваться для выполнения роботов.
Появляется все больше доказательств того, что современные визуальные языковые модели (ВЯМ) и большие языковые модели (БЯМ) обладают хорошими возможностями для символического планирования задач (например, что делать). Однако для успешного взаимодействия между средами каждая задача требует низкоуровневых стратегий управления (например, как это сделать). Хотя обучение с подкреплением и подражанием являются перспективными подходами для изучения стратегий на основе данных, еще одним перспективным подходом является приобретение стратегий непосредственно от людей через живые демонстрации, подход, известный как "обучение из наблюдения", Wake et al. (2021a); Ikeuchi et al. В этом разделе мы представляем исследование, в котором мы использовали ChatGPT для планирования задач и обогатили план, параметризовав его информацией о доступности, чтобы облегчить эффективное и точное выполнение (рис. 13).
Процесс состоит из двух модулей: планирование задачи и параметризация. При планировании задач система получает лингвистические инструкции и описание рабочей среды. Эти инструкции, а также предопределенные действия робота и спецификации выходных данных, компилируются в комплексную подсказку, предоставляемую ChatGPT, которая затем генерирует серию декомпозированных задач и их текстовые описания (рис. 13; левая панель). Стоит отметить, что мы используем подход "без образца", то есть ChatGPT не обучался для этой задачи, что выгодно с точки зрения применимости, так как избавляет от необходимости сбора данных об аппаратном обеспечении и обучения модели. Кроме того, текстовые описания в выходных данных позволяют пользователю проверять и корректировать результаты по мере необходимости, что является ключевой особенностью для безопасной и надежной работы. На рисунке 14 показаны качественные результаты моделирования интеллекта, выполненного на базе VirtualHome Puig et al. (2018). Результаты показывают разумный план задач и гибкость в настройке выходных данных, демонстрируя широкую применимость нашего подхода.
![Agent AI: 探索多模态交互的世界[李飞飞-经典必读]-2 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/09bc49e4acc235a.png)
Рисунок 14: Пример корректировки выходной последовательности с помощью автоматически генерируемой обратной связи. Для экспериментов мы использовали симулятор VirtualHome с открытым исходным кодом. Получив инструкцию "Возьмите пирог со стола и разогрейте его на плите". планировщик задач планирует последовательность функций, представленных в VirtualHome. Если во время выполнения обнаруживается ошибка, планировщик задач корректирует свой вывод с помощью автоматически сгенерированного сообщения об ошибке.
В то время как планировщик задач обеспечивает согласованность последовательностей задач, для успешной работы в реальности необходимы детальные параметры. Например, тип захвата имеет решающее значение для переноса контейнера без проливания содержимого, и этот параметр обычно игнорируется в симуляторах (см. пример захвата пирога на рис. 14). Таким образом, в нашей роботизированной системе пользователю необходимо наглядно продемонстрировать каждое действие (рис. 13; правая панель). Эти задачи имеют предопределенные параметры, необходимые для выполнения, которые наша система технического зрения извлекает из видео Wake et al. (2021b). Стоит отметить, что наша роботизированная система не предназначена для точного воспроизведения действий человека (т. е. телеоперации), а скорее для работы в различных условиях реального мира, таких как изменение положения объекта. Поэтому параметры, извлеченные из демонстрации человека, содержат не только точные траектории движения, но и информацию о доступности, указывающую на эффективное движение в окружающей среде (например, путевые точки для избегания столкновений Wake et al. (2023a), тип захвата Wake et al. (2023e) и позу верхней конечности Sasabuchi et al. (2021); Wake et al. ( 2021a)). Поза верхней конечности имеет решающее значение для роботов с большим числом степеней свободы и призвана обеспечить предсказуемые позы для людей, сосуществующих с управляющим роботом. Последовательности задач с доступностью преобразуются в набор многократно используемых робототехнических навыков, которые могут быть приобретены с помощью обучения с подкреплением и выполнены роботом Takamatsu et al. (2022).
![Agent AI: 探索多模态交互的边界-13 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/3c95adeb261df8e.png)
Рисунок 15: Обзор мультимодального планировщика задач с использованием GPT-4V и GPT-4. Система обрабатывает видеопрезентации и текстовые инструкции, генерируя планы задач для выполнения роботом.
![Agent AI: 探索多模态交互的世界[李飞飞-经典必读]-4 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/48d540c768aad09.png)
Рисунок 16: Пример выходного сигнала видеоанализатора. Пять кадров извлекаются через фиксированные промежутки времени и подаются в GPT-4V. Весь процесс описан в разделе 6.2.2.
Интегрировав его с визуальными языковыми моделями (ВЯМ), можно расширить планирование задач на основе больших языковых моделей (БЯМ) для создания более обобщенных роботизированных систем. Здесь мы приводим пример использования GPT-4V(ision) для расширения вышеописанного планировщика задач в контексте мультимодального ввода (рис. 15), когда человек выполняет действия, предназначенные для воспроизведения роботом. В данной статье показана только часть подсказок. Полную версию подсказок можно найти на сайте microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts.
Процесс получает демонстрационное видео и текст, а затем выдает серию действий робота. Визуальный анализатор нацелен на понимание действий, выполняемых человеком на видео. Мы использовали GPT-4V и предоставили подсказку для создания текстовых команд в стиле, похожем на общение человека с человеком. На рис. 16 показано, как использование текстового ввода позволяет пользователю предоставлять обратную связь для корректировки результатов распознавания GPT-4V. Эта функция, предназначенная для повышения точности результатов распознавания, также обеспечивает более надежную работу.
![Agent AI: 探索多模态交互的边界-15 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/68218e1642d53a3.png)
Рисунок 17: Пример вывода данных из анализатора сцены с использованием GPT-4V. Мы описываем весь процесс в разделе 6.2.2.
Далее анализатор сцены собирает ожидаемую рабочую среду в текстовую информацию на основе первого кадра (или изображения среды) команд и видеоданных. Эта информация о среде включает в себя список названий объектов, распознаваемых GPT-4V, атрибуты объектов, которые можно ухватить, и пространственные отношения между объектами. Хотя эти вычислительные процессы являются "черным ящиком" в GPT-4V, они основаны на знаниях GPT-4V, а также на входной/выходной информации изображения/текста. На рисунке 17 показан пример вывода нашего анализатора сцены. Как видно, GPT-4V успешно выбирает объекты, которые имеют отношение к операции. Например, когда человек переставляет контейнер со спамом на стол, стол включается в вывод, в то время как в задаче открытия холодильника стол игнорируется. Эти результаты говорят о том, что анализатор сцены кодирует информацию о сцене на основе действий человека. Мы попросили GPT-4V объяснить результаты процесса выбора объектов и причины, лежащие в основе этих выборов. На практике мы обнаружили, что такой подход дает приемлемые результаты. Наконец, на основе заданных текстовых инструкций и информации об окружении планировщик задач выводит серию заданий Wake et al. (2023c).
Воплощенный интеллект для навигации роботов.
Задача визуальной лингвистической навигации (ВЛН) - ориентировать воплощенный интеллект для выполнения команд на естественном языке в реалистичной 3D-среде. Навигация в 3D-среде Zhu et al. (2017a); Mirowski et al. (2016); Mousavian et al. (2018); Hemachandra et al. (2015) является важной способностью для мобильных интеллектуальных систем, работающих в физическом мире. За последние несколько лет было предложено большое количество задач и протоколов оценки: Savva et al. (2017); Kolve et al. (2017); Song et al. (2017); Xia et al. (2018); Anderson et al. (2018a), а также Anderson et al. (2018b). обобщены в. Визуальная лингвистическая навигация (ВЛН) Андерсон и др. (2018a) посвящена навигации на основе языка в реальных 3D-средах. Для решения задачи визуальной лингвистической навигации (ВЛН) в работе (Anderson et al., 2018a) была разработана базовая модель последовательности и последовательности, основанная на внимании. Затем в работе (Wang et al., 2018) был представлен гибридный подход, сочетающий обучение с подкреплением (RL) без модели и на основе модели для улучшения обобщения модели. Наконец, в работе (Fried et al., 2018) предложена модель диктора-последователя, использующая расширение данных, панорамное пространство действий и модифицированный поиск луча для визуально-лингвистической навигации (VLN), что позволило достичь современных результатов на наборе данных Room-to-Room. Основываясь на предыдущих работах, мы представляем кросс-модальное соответствие с усилением (RCM) для визуально-лингвистической навигации (ВЛН) в (Wang et al., 2019). Модель RCM основана на Fried et al. (2018), но отличается рядом важных особенностей: (1) RCM сочетает в себе новый тип мультивознаграждающего обучения с усилением для визуально-лингвистической навигации (ВЛН) с усилением. (1) RCM сочетает в себе новый тип многовознаграждающего обучения с многовознаграждающим обучением с подражанием (VLN), в то время как модель диктора-последователя Fried et al. (2018) использует только контролируемое обучение, как показано в (Anderson et al., 2018a). (2) Навигатор вывода RCM выполняет кросс-модальную локализацию, а не механизм временного внимания для унимодальных входов. (3) Критик соответствия RCM похож на динамик с точки зрения архитектурного дизайна, но первый используется для циклической реконструкции внутренних вознаграждений при обучении с подкреплением (RL) и самоконтролируемом обучении с подражанием (SIL), а второй используется для дополнения данных обучения при контролируемом обучении. В работе (Wang et al., 2019) мы исследуем, как решить три ключевые проблемы лидера в этой задаче: кросс-модальную локализацию, обратную связь при нечетком задании и проблему обобщения. Как показано на рис. 18, мы предлагаем новый метод кросс-модального согласования с подкреплением, который обеспечивает кросс-модальную локализацию локально и глобально с помощью обучения с подкреплением (RL). В частности, комментатор соответствия используется для предоставления внутренних вознаграждений, чтобы поощрить глобальное соответствие между инструкциями и траекториями, а навигатор вывода используется для выполнения кросс-модальной локализации в локальной визуальной сцене. Оценка эталонного набора данных Visual Linguistic Navigation (VLN) показывает, что наша модель RCM значительно превосходит предыдущий подход 10% на SPL и достигает новых современных показателей. Чтобы улучшить обобщающую способность стратегии обучения, мы вводим подход Self-Supervised Imitation Learning (SIL), который позволяет исследовать невидимую среду, имитируя собственные удачные прошлые решения. Мы демонстрируем, что самоконтролируемое обучение подражанию (SIL) может приблизить лучшие и более эффективные стратегии, что значительно сокращает разрыв в показателях успешности между видимыми и невидимыми средами (с 30,7% до 11,7%). Кроме того, в работе Wang et al. (2019) мы представляем метод самоконтролируемого обучения имитации для разведки, чтобы явно решить проблему обобщения, которая не была полностью исследована в предыдущих работах. Параллельно с этой работой Томасон и др. (2018), Ке и др. (2019), Ма и др. (2019a, b) исследовали задачи визуальной лингвистической навигации (ВЛН) в различных аспектах, а Нгуен и др. (2018) представили вариант задачи визуальной лингвистической навигации (ВЛН), учитывающий необходимость запросить лингвистическую помощь для поиска объектов. Отметим, что мы первыми предложили исследовать невидимое окружение для задач визуальной лингвистической навигации (ВЛН).
![Agent AI: 探索多模态交互的边界-10 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/1414c9756505ddf.png)
Рисунок 18: Демонстрация задачи визуальной лингвистической навигации (ВЛН) воплощенного интеллекта из работы Wang et al. (2019). Показаны инструкции, локальные визуальные сцены и глобальные траектории в виде сверху. Интеллектуальное тело не имеет доступа к виду сверху. Путь A - это демонстрационный путь, который следует инструкции. Пути B и C - это два разных пути, выполняемых разумным телом.
6.3 Здравоохранение
В здравоохранении большие языковые модели (LLM) и визуальные языковые модели (VLM) могут выступать в качестве диагностических интеллектов, ассистентов по уходу за пациентами и даже терапевтических средств, но они также сталкиваются с уникальными проблемами и ответственностью лидеров. Поскольку интеллектуальные системы ИИ обладают огромным потенциалом для улучшения ухода за пациентами и спасения жизней, не менее опасна возможность их неправильного использования или поспешного развертывания, которое может поставить под угрозу жизни тысяч или даже миллионов людей по всему миру. Мы обсудим некоторые перспективные направления использования искусственного интеллекта в здравоохранении и рассмотрим некоторые из основных дилемм, с которыми сталкиваются руководители.
Диагностика интеллигенции.
Медицинские чат-боты, использующие большие языковые модели (LLM) для диагностики пациентов, в последнее время привлекают большое внимание из-за высокого спроса на медицинских специалистов и потенциала LLM в помощи классификации и диагностики пациентов Lee et al. (2023). Разговорный интеллект, особенно тот, который способен эффективно доносить важную медицинскую информацию до широкого круга людей из разных групп пациентов, может обеспечить равный доступ к здравоохранению для исторически обездоленных или маргинализированных групп. Кроме того, врачи и системы здравоохранения во всем мире в значительной степени перегружены и не имеют достаточных ресурсов, в результате чего сотни миллионов людей по всему миру лишены доступа к адекватной медицинской помощи Всемирная организация здравоохранения и Всемирный банк (2015). Диагностические интеллекты предлагают особенно благоприятные возможности для улучшения медицинского обслуживания миллионов людей, поскольку они могут быть созданы с учетом способности понимать широкий спектр языков, культур и состояний здоровья. Предварительные результаты показывают, что большие языковые модели (LMM) со знаниями о здравоохранении могут быть обучены с помощью крупномасштабных сетевых данных Li et al. (2023f). Несмотря на то что это захватывающее направление, перспектива создания диагностических интеллектов не лишена риска. В следующих разделах мы сосредоточимся на рисках, связанных с галлюцинациями в медицинских учреждениях, а также на потенциальных путях их решения.
Интеллектуальный поиск знаний.
В медицинском контексте моделирование галлюцинаций особенно опасно и может даже привести к серьезным травмам или смерти пациента, в зависимости от тяжести ошибки. Например, если пациенту по ошибке ставят диагноз, предполагающий заболевание, которого у него на самом деле нет, это может привести к катастрофическим последствиям. К таким последствиям может относиться несвоевременное или неадекватное лечение, а в некоторых случаях - полное отсутствие необходимого медицинского вмешательства. Тяжесть недиагностированного или неправильно диагностированного состояния может привести к увеличению расходов на здравоохранение, длительному лечению, приводящему к еще большему физическому стрессу, а в крайних случаях - к серьезным травмам или даже смерти. Поэтому перспективными направлениями являются методы, позволяющие более надежно извлекать знания с помощью интеллектуальных тел Peng et al. (2023) или методы, генерирующие текст на основе поиска Guu et al. (2020). Сопряжение диагностических интеллектов с интеллектами для поиска медицинских знаний способно значительно уменьшить количество галлюцинаций и одновременно повысить качество и точность ответов диагностических диалоговых интеллектов.
Телемедицина и удаленный мониторинг.
Интеллектуальный искусственный интеллект на основе тела также имеет большой потенциал в телемедицине и дистанционном мониторинге для улучшения доступа к здравоохранению, улучшения коммуникации между медицинскими работниками и пациентами, а также повышения эффективности и снижения затрат на частое взаимодействие врача с пациентом Amjad et al. (2023). Врачи, оказывающие первичную медицинскую помощь, тратят много времени на просеивание сообщений, отчетов и электронных писем пациентов, которые зачастую не имеют отношения к делу или не нужны им для просмотра. Поддержка интеллекта, которая может помочь классифицировать сообщения от врачей, пациентов и других медицинских работников и выделить важные сообщения от всех сторон, имеет огромный потенциал. Индустрия телемедицины и цифрового здравоохранения обладает огромным трансформационным потенциалом, позволяя интеллектуальным системам ИИ тела координировать свои действия с пациентами, врачами и другими интеллектуальными системами ИИ.
6.3.1 Текущие мощности здравоохранения
![Agent AI: 探索多模态交互的边界-19 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/bf947d200d7b021.png)
Рисунок 19: Примеры подсказок и реакций при использовании GPT-4V в области понимания изображений в здравоохранении. Слева направо: (1) изображения компьютерной томографии, выполненной медсестрой и врачом, (2) синтетическое изображение нерегулярной ЭКГ и (3) изображение из набора данных ISIC Codella et al. (2018) "Поражение кожи". Мы видим, что GPT-4V обладает значительными медицинскими знаниями и способен рассуждать о медицинских изображениях. Однако он не может диагностировать некоторые медицинские изображения из-за обучения безопасности.
![Agent AI: 探索多模态交互的边界-5 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/f4fe292eb01627a.png)
Рисунок 20: Примеры подсказок и ответов при использовании GPT-4V в области понимания видео в здравоохранении. Мы вводим примеры видео в виде сетки 2x2 и накладываем текст, чтобы указать порядок кадров. В первых двух примерах мы попросили GPT-4V изучить кадры видео, чтобы обнаружить клинические действия у постели пациента-добровольца. В последнем примере мы попытались попросить GPT-4V оценить видеозапись эхокардиографии, но из-за того, что GPT-4V был обучен технике безопасности, он не дал подробного ответа. Для наглядности мы выделили текст, описывающий интересующую нас деятельность, жирным шрифтом и сократили ненужные ответы моделей. Мы закрасили лица людей серым цветом, чтобы защитить их конфиденциальность.
Понимание образа.
На рисунке 19 показаны текущие возможности и ограничения современных мультимодальных интеллектов, таких как GPT-4V, в контексте здравоохранения. Мы видим, что, хотя GPT-4V обладает большим объемом внутренних знаний об оборудовании и процедурах, связанных с уходом за больными, он не всегда отвечает на более предписывающие или диагностические запросы пользователя.
Видеопонимание.
Мы исследовали эффективность интеллекта, основанного на моделировании визуального языка (VLM), для понимания медицинского видео в двух контекстах. Во-первых, мы исследовали способность интеллекта, основанного на модели визуального языка (VLM), распознавать важные действия по уходу за пациентом в клиническом пространстве. Во-вторых, мы исследовали применение модели визуального языка (VLM) для более специализированных видео, таких как УЗИ. В частности, на рисунке 20 мы демонстрируем некоторые из текущих возможностей и ограничений GPT-4V для больничного ухода и анализа медицинского видео.
6.4 Мультимодальный интеллект
![Agent AI: 探索多模态交互的边界-18 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/bc374a02016c66a.png)
Рисунок 21: Интерактивный мультимодальный интеллект состоит из четырех составляющих: взаимодействие, речь, зрение и язык. Интеллектуальное тело Co-Pilot состоит из различных сервисов.1) Сервисы взаимодействия помогают разработать единую платформу для автоматизированных операций, познания и принятия решений.2) Аудиосервисы интегрируют обработку звука и речи в приложения и сервисы.3) Сервисы зрения идентифицируют и анализируют содержимое изображений, видео и цифровых чернил.4) Языковые сервисы извлекают смысл из структурированного и неструктурированного текста.
Интеграция зрения и понимания языка имеет решающее значение для разработки сложных мультимодальных интеллектов ИИ. Сюда относятся такие задачи, как создание подписей к изображениям, визуальные ответы на вопросы, создание видеоязыка и понимание видео. Мы стремимся углубиться в эти визуально-лингвистические задачи и изучить проблемы и возможности, которые они представляют в контексте ИИ-интеллекта.
6.4.1 Понимание и генерирование языка изображений
Понимание языка изображений - это задача, которая включает в себя интерпретацию лингвистического визуального содержания данного изображения и создание соответствующего лингвистического описания. Эта задача имеет решающее значение для разработки ИИ-интеллектов, способных взаимодействовать с миром более человекоподобным образом. Среди наиболее популярных задач - создание подписей к изображениям Lin et al. (2014); Sharma et al. (2018); Young et al. (2014); Krishna et al. (2016), представление пальцев Yu et al. (2016); Karpathy et al. (2014) и ответы на визуальные вопросы. Antol et al. (2015); Ren et al. (2015); Singh et al. (2019).
В последнее время появились такие наукоемкие задачи на визуальные вопросы, как OKVQA Marino et al. (2019), KB-VQA Wang et al. (2015), FVQA Wang et al. (2017) и WebQA Chang et al. (2021). Мультимодальные интеллекты должны уметь распознавать объекты на изображении, понимать их пространственные отношения, генерировать точные описательные предложения о сцене и использовать навыки умозаключений для обработки визуальных рассуждений, требующих большого объема знаний. Это требует не только навыков распознавания объектов, но и глубокого понимания пространственных отношений, визуальной семантики и способности сопоставлять эти визуальные элементы с лингвистическими структурами и знаниями о мире.
6.4.2 Понимание и генерирование видео и языка
Видеоязык поколения.
Видеосубтитры или видеорассказы - это задача создания связных предложений для серии видеокадров. Вдохновленные успехом рекуррентной крупномасштабной базовой модели, используемой в видео- и языковых задачах, варианты модели дополнения, управляемой интеллектом, показывают многообещающие результаты в задачах генерации видеоязыка. Основная проблема заключается в том, что робастность нейронной модели кодера-декодера не очень хорошо подходит для визуального повествования, поскольку задача требует всестороннего понимания содержания каждого изображения и связей между различными кадрами. Важной задачей в этой области является создание интеллектуальной модели синтеза текста с учетом особенностей организма, способной эффективно кодировать последовательности кадров и генерировать тематически связный многословный абзац.
Видеопонимание.
Понимание видео расширяет сферу понимания изображений до динамического визуального контента. Оно включает в себя интерпретацию и рассуждения о последовательностях кадров в видео, часто в сочетании с сопутствующей аудио- или текстовой информацией. Интеллектуалы должны уметь взаимодействовать с различными модальностями - визуальными, текстовыми и аудио - чтобы продемонстрировать свое продвинутое понимание видеоконтента. Задачи в этой области включают создание видеоподписей, ответы на видеовопросы и распознавание действий. Проблемы понимания видео многогранны. Они включают в себя временное согласование визуального и вербального контента, обработку длинных последовательных кадров и интерпретацию сложных действий, разворачивающихся во времени. Что касается аудио, то интеллигенция может обрабатывать разговорные слова, фоновый шум, музыку и интонацию, чтобы понять настроение, обстановку и нюансы видеоконтента.
В предыдущих работах основное внимание уделялось использованию существующих данных для обучения видеоязыку, доступных в Интернете, для построения базовых моделей видео Li et al. (2020, 2021b); Fu et al. (2022); Bain et al. (2021); Zellers et al. (2021, 2022); Fu et al. (2023). Однако поддержка таких процессов и функций обучения затруднена из-за ограниченности и зачастую непоследовательности этих наборов данных. Базовые видеомодели разрабатываются с использованием целей предварительного обучения по маске и контрасту, а затем адаптируются к соответствующим задачам. Несмотря на отличные результаты в мультимодальных тестах, эти модели с трудом справляются с задачами, связанными только с видео, такими как распознавание действий, поскольку они опираются на ограниченные видеотекстовые данные, созданные на основе зашумленных аудиотранскрипций. Это ограничение также приводит к отсутствию устойчивости и тонких навыков рассуждения, которыми обычно обладают большие языковые модели.
Другие подходы, аналогичные тем, что используются для понимания языка изображений, используют мощные способности к рассуждению и обширные знания больших языковых моделей для улучшения различных аспектов интерпретации видео. Задачу понимания видео упрощают модели, основанные только на языке, такие как ChatGPT и GPT4, или модели, основанные на языке изображений, такие как GPT4-V, которые рассматривают аудио-, видео- и лингвистические модальности как отдельные интерпретируемые типы входных данных и позиционируют интеллигенцию как мощные модели с открытым исходным кодом. Например, Хуанг и др. (2023c); Ли и др. (2023g) преобразуют понимание видео в формулы ответов на вопросы с помощью обработки естественного языка (NLP), текстуализируя видеоконтент с помощью открытых моделей визуальной классификации/обнаружения/субтитрования.Лин и др. (2023) интегрируют GPT4-V со специальными инструментами для зрения, аудио и речи для облегчения сложных задач понимания видео, таких как написание сценариев действий и манипуляций персонажей в длинных видео.
В параллельных исследованиях изучалось создание масштабных наборов данных на основе больших моделей, а затем применение корректировок визуальных инструкций к сгенерированным данным Liu et al. (2023c); Li et al. (2023c); Zhu et al. (2023). Затем видео было представлено с помощью большого количества аудио-, речевых и визуальных экспертных моделей восприятия. Речь транскрибировалась с помощью инструмента автоматического распознавания речи, а описания видео и связанные с ними данные создавались с помощью различных моделей маркировки, позиционирования и создания надписей Li et al. (2023g); Maaz et al. (2023); Chen et al. (2023); Wang et al. (2023f). Эти методы демонстрируют, как адаптация инструкций языковой модели видео на сгенерированном наборе данных может расширить возможности рассуждения и общения с помощью видео.
6.4.3 Эксперименты и результаты
- Знаниеемкие модели: Задача интенсивного нейронного знания, которая объединяет необходимые знания человеческих аннотаций для поддержки задач поиска с интенсивным знанием, как представлено в INK Park et al. (2022) и KAT Gui et al. (2022a).
- Мультимодальные интеллекты: Растет интерес к мультимодальным языковым моделям, таким как Chameleon Lu et al. (2023) и MM-React Yang et al. (2023c).
- Визуальная настройка команд: VCL Gui et al. (2022b), Mini-GPT4 Zhu et al. (2023), MPLUG-OWL Ye et al. (2023b), LSKD Park et al. (2023c) для создания наборов данных корректировки инструкций на уровне изображения.
![Agent AI: 探索多模态交互的边界-12 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/4ddf9cd541df9e2.png)
Рисунок 22: Пример задачи "Интенсивное нейронное знание" (INK) Park et al. (2022), в которой используются знания для идентификации текста, связанного с изображением, из набора текстов-кандидатов. Наша задача предполагает использование визуальных и текстовых знаний, полученных из Сети, а также аннотированных вручную.
Интеллектуальные способности, требующие больших знаний.
Как показано на рисунках 22 и 23, основанные на знаниях задачи визуального ответа на вопрос и визуального поиска языка являются сложными задачами мультимодального машинного обучения, требующими внешних знаний, помимо содержания изображений. Недавние исследования крупномасштабных трансформеров были сосредоточены в основном на повышении эффективности хранения информации о параметрах модели. Данное направление исследований изучает другой аспект: могут ли мультимодальные трансформеры использовать явные знания в процессе принятия решений. Методы предварительного обучения трансформеров показали отличные результаты в имплицитном обучении представлениям знаний в нескольких модальностях. Однако традиционные подходы (в основном унимодальные) в основном изучали поиск знаний и последующее предсказание ответов, что ставит вопросы о качестве и релевантности полученных знаний, а также об интеграции процессов рассуждения с использованием как неявных, так и явных знаний. Для решения этих проблем мы представляем трансформатор дополнения знаний (KAT), который превосходит другие модели на 6% в мультимодальной задаче с открытым доменом 2022 OK-VQA. KAT объединяет неявные знания из GPT3 с явными знаниями с веб-сайтов с помощью архитектуры кодера-декодера и позволяет использовать оба типа знаний во время одновременное рассуждение во время генерации ответа с использованием обоих типов знаний. Кроме того, объединение явных знаний повышает интерпретируемость предсказаний модели. Код и предварительно обученную модель можно найти на сайте https://github.com/guilk/KAT.
![Agent AI: 探索多模态交互的边界-6 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/f55f9a766b54ffb.png)
Рисунок 23: Модель KAT Гуи и др. (2022a) извлекают записи знаний из явной базы знаний с помощью модуля контрастного обучения и извлекают неявные знания с подтверждающими доказательствами с помощью GPT-3. Интеграцией знаний занимается соответствующий кодировщик Transformer, а генерация ответов осуществляется совместно модулем сквозного обучения и рассуждений и декодировщиком Transformer.
![Agent AI: 探索多模态交互的边界-21 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/9d1c815ede9bca7.png)
Рисунок 24: Общая архитектура модели VLC Гуи и др. (2022b). Наша модель состоит из трех модулей: (1) проекции для конкретных модальностей. Мы используем простые линейные проекции для встраивания патченных изображений и слой встраивания слов для встраивания токенизированного текста; (2) мультимодальный кодер. В качестве основы мы используем 12-слойный ViT Досовицкого и др. (2021), инициализированный из MAE He и др. (2022) (ImageNet-1K без меток); (3) декодер, специфичный для конкретной задачи. Мы обучаемся мультимодальному представлению с помощью моделирования изображения/языка по маске и сопоставления изображения и текста, используемого только во время предварительного обучения. Мы используем двухслойный MLP для точной настройки нашего мультимодального кодера для последующих задач. Важно отметить, что задача моделирования масок изображений важна на втором этапе предварительного обучения, а не только для инициализации визуального трансформатора.
Визуальный язык Трансформатор интеллекта.
Далее мы представляем модель "Обучение трансформатора визуального языка по подписям" (VLC) Гуи и др. (2022b) - трансформатор, который предварительно обучается только по парам подписей к изображениям. Хотя VLC использует только простые линейные проекционные слои для вложения изображений, VLC достигает конкурентоспособных результатов в различных задачах визуального языка по сравнению с другими методами, которые полагаются на детекторы объектов или контролируемые сети CNN/ViT. VLC достигает конкурентоспособных результатов в различных задачах визуального языка по сравнению с другими методами, использующими детекторы объектов или контролируемые сети CNN/ViT. Проведя обширный анализ, мы изучили потенциал VLC как интеллектуального преобразователя визуального языка. Например, мы показываем, что визуальное представление VLC очень эффективно для классификации ImageNet-1K, а наши визуализации подтверждают, что VLC может точно сопоставлять фрагменты изображений с соответствующими текстовыми лексемами. Масштабирование производительности при увеличении количества обучающих данных подчеркивает большой потенциал для разработки крупномасштабных визуальных языковых моделей со слабым контролем и открытым доменом.
6.5 Эксперименты с видеоязыком
Чтобы понять, насколько полезно использовать предварительно обученные языковые модели изображений (LLM) для понимания видео, мы темпорально расширили и точно настроили InstructBLIP Dai et al. (2023) для создания подписей к видео. В частности, мы расширили визуальный кодер InstructBLIP (EVA-CLIP-G Sun et al. (2023b)), используя ту же сегментированную схему пространственно-временного внимания, что и в Frozen in Time Bain et al. (2021), и сохранили Q-формер и большую языковую модель (LLM) во время обучения (Flan-T5-XL). Chung et al. (2022)) замороженными. Мы замораживаем все пространственные слои визуального кодера, сохраняя временной слой незамороженным во время обучения субтитров. Это позволяет нашей модели принимать на вход изображения и видео (что соответствует производительности InstructBLIP на уровне изображений). Мы обучались на подмножестве из 5 миллионов подписей к видео из WebVid10M Bain et al. (2021). На рисунке 25 представлены два примера результатов. Однако существующие интеллекты не могут полностью понять точные и тонкие визуальные детали видеоконтента. Методы тонкой настройки визуальных команд страдают от аналогичных ограничений, поскольку им не хватает общих перцептивных возможностей на уровне человека, которые еще предстоит решить мультимодальным моделям и интеллектам.
![Agent AI: 探索多模态交互的边界-14 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/2436f23b98933a7.png)
Рисунок 25: Примеры подсказок и ответов при использовании варианта тонкой настройки видео в InstructBLIP (метод, описанный в разделе 6.5). Наша модель способна генерировать длинные текстовые ответы с описанием сцены и отвечать на вопросы, связанные с темпоральностью событий в видео.
Модели тонкой настройки команд демонстрируют перспективность в точном обобщении действий, видимых в видео, и эффективной идентификации таких действий, как "человек, сидящий на скамейке", как показано на рис. 25. Однако иногда они добавляют неверные детали, такие как "человек, улыбающийся в камеру", что свидетельствует о недостатках в передаче темы диалога или атмосферы видео - элементов, которые были бы очевидны для человеческого наблюдателя. Этот недостаток подчеркивает еще одно ключевое ограничение: отсутствие аудио- и речевых модальностей, которые могли бы обогатить понимание видео через контекст, помогая сделать более точную интерпретацию и предотвратить подобные искажения. Для устранения этого пробела требуется целостная интеграция доступных модальностей, чтобы мультимодальные интеллекты могли достичь уровня понимания, аналогичного человеческому восприятию, и обеспечить полностью мультимодальный подход к интерпретации видео.
Аудио-видео-вербальный интеллект на основе GPT-4V.
![Agent AI: 探索多模态交互的边界-5 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/45dd597f5ea7d9d.png)
Рисунок 26: Аудио-мультимодальные интеллекты, описанные в разделе 6.5. Иллюзорное содержание выделено красным. Мы использовали GPT-4V для создания 1) резюме видеочата с видеокадрами, 2) резюме видео с подписями к кадрам и 3) резюме видео с подписями к кадрам и аудиоинформацией.
![Agent AI: 探索多模态交互的边界-7 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/c54bf06463fbace.png)
Рисунок 27: Интерактивный мультимодальный интеллект, объединяющий визуальные, аудио и текстовые модальности для понимания видео. Наш процесс использует сложные негативные иллюзии для создания сложных запросов для задачи VideoAnalytica. Более подробную информацию о наборе данных Interactive Audio-Video-Language Intelligentsia см. в разделе 9.2.
Далее мы следуем подходу, описанному в работе Lin et al. (2023), чтобы оценить способность GPT-4V выступать в роли мультимодального интеллекта, объединяющего зрение, аудио и речь для детального и точного понимания видео. Результаты, представленные на рисунке 26, сравнивают производительность различных видеоинтеллектов в задаче обобщения видео. Модель тонкой настройки видеоинструкций (Li et al., 2023g) обеспечивает точное содержание, но не обладает достаточной полнотой и детализацией, упуская конкретные действия, такие как систематическое использование метлы для измерения высоты дерева.
Для повышения точности видеоописаний мы используем GPT-4V для субтитров к кадрам, а аудио и его транскрипция взяты из OpenAI Шепот Модель. Затем мы попросили GPT-4V создать видеоконспекты, используя покадровые субтитры, а затем покадровые субтитры и транскрипцию аудио. Вначале мы заметили, что субтитры только для кадров приводили к вымышленным событиям, например, кто-то кусал палку в третьем сегменте. Эти неточности сохранялись и в резюме видео, например, в описаниях типа "интересный поворот, он укусил ее, держа горизонтально". Без звукового сопровождения интеллект не может исправить эти ошибки в субтитрах, в результате чего получаются семантически правильные, но визуально искаженные описания.
Однако когда мы предоставляем аудиотранскрипцию интеллектуальному телу, оно может точно описать содержание и даже зафиксировать подробные движения тела, например "повернуть метлу перпендикулярно телу и вниз". Такой уровень детализации гораздо более информативен, позволяя зрителю лучше понять цель и ключевые детали видео. Эти результаты подчеркивают важность интеграции аудио-, видео- и вербального взаимодействия для развития высококачественного мультимодального интеллекта, а GPT-4V служит многообещающей основой для такого продвинутого мультимодального понимания и взаимодействия.
Воплощенный мультимодальный интеллект на основе GPT-4V.
Как показано на рисунке 27, мы используем StackOverflow для получения исходного вопроса, а затем с помощью API "Bing search" извлекаем видео и аудио, относящиеся к вопросу. Далее мы используем GPT-4V для получения соответствующей текстовой информации и высокоуровневых описаний видео. С другой стороны, мы используем ASR для преобразования аудио ключевых кадров в низкоуровневые описания фрагментов ключевых кадров. Наконец, мы используем GPT-4V для создания убедительных "иллюзий", которые могут быть использованы в качестве сложных негативных запросов в задачах видеовикторины. Мы поддерживаем взаимодействие и опрос в текущем кадре видео, а также обобщаем общее высокоуровневое описание видео. В процессе рассуждений мы также используем внешние знания, полученные в результате поиска в Интернете, для улучшения ответов.
Ниже описаны основные подсказки GPT-4V. Для наглядности все подсказки даны с отступами; они занимают одну страницу.
GPT-4V - это помощник, предназначенный для предоставления описательных, информативных и исчерпывающих деталей в видео для людей с ослабленным зрением, которые могут слышать видео, но не видеть его. Эта работа осуществляется путем синтеза заданных аннотаций и вывода их в виде JSON для создания высококачественных, плотных описаний видео. В частности, GPT-4V будет предоставлен исходный запрос, использованный для поиска видео, название видео, описание, аудиотранскрипция и потенциально шумные описания в определенные моменты видео. Различные сегменты одного и того же видео аннотируются как "[время начала - время окончания (в секундах)] 'текст'". Комбинация расшифровок и описаний используется для определения точных деталей и визуального представления того, что может происходить на видео. GPT-4V объединяет или разделяет временные метки по мере необходимости, чтобы обеспечить оптимальную сегментацию видео.
Ожидания от выхода GPT-4V:
- Описания, ориентированные на действие: отдайте предпочтение правдоподобным действиям, движениям и физическим демонстрациям, сопровождаемым звуком, обогатив свое повествование динамичными визуальными подсказками.
- Полный охват видео: обеспечивает непрерывное и последовательное воспроизведение аудиоописания, которое охватывает каждый момент видео, гарантируя, что ни один контент не будет упущен.
- Лаконичное сегментирование: стройте свои описания в виде сфокусированных, лаконичных сегментов по 1-2 предложения каждый, чтобы эффективно передать визуальное действие, не вдаваясь в излишние подробности.
- Контекстный аудиовизуальный синтез: плавное смешение вербального аудиоконтента с визуальными элементами для формирования повествования, которое отражает основную активность на экране.
- Воображаемые и правдоподобные домыслы: добавьте в свои описания творческие, но правдоподобные визуальные детали, которые соответствуют звуку, чтобы улучшить понимание сцены.
- Точное соответствие таймкоду: совместите описательные фрагменты с соответствующим таймкодом, чтобы предполагаемые визуальные детали были синхронизированы с временной шкалой аудиоповествования.
- Уверенное изложение: уверенное изложение описаний так, как будто предполагаемая визуализация происходит на самом деле, чтобы вызвать доверие у слушателя.
- Опустить необоснованные детали: исключить описания объектов или событий, которые не вписываются в контекст, созданный аудио- и визуальной информацией.
Конечный результат должен быть структурирован в формате JSON и содержать список словарей, каждый из которых описывает сегмент видео.
Конечный результат должен быть структурирован в формате JSON и содержать список словарей, каждый из которых описывает сегмент видео.
['start': , 'end': , 'text': ""]Для создания МК: наша задача - создать вопросы с несколькими вариантами ответов для задачи поиска видео по тексту, которые можно легко решить, посмотрев название и прочитав аудиотранскрипцию. Для этого мы получим исходный запрос, по которому было получено видео, описание, аудиотранскрипцию и потенциально шумное описание определенного момента в видео.
- Формат для транскрипции аудио: - [время начала и окончания в секундах] "Транскрибировать"
- Формат шумного описания: - [время в секундах] "описание"
Мы просим GPT-4V генерировать четыре запроса, где основной запрос соответствует видеоконтенту, а три других отрицательных запроса немного отличаются от основного. Выбор первичного запроса не должен сводиться к простому прослушиванию аудиотранскрипции, например, если текстовый оригинальный запрос включен в аудиотранскрипцию. Отрицательные запросы должны быть тесно связаны, но не полностью совпадать с содержанием видео и требовать визуального понимания видео, чтобы их различить. Например, тонко измените семантику, чтобы для выбора оригинального запроса нужно было смотреть видео, а не просто слушать. Скомпилируйте четыре запроса в виде субтитров, причем первый запрос - это переформулированный исходный запрос.
Продумайте шаг за шагом, как использовать информацию из видео, чтобы сформулировать негативные утверждения. И докажите, что негативные запросы - это неправильные, но все же убедительные варианты, требующие внимательного понимания видео. И как люди не случайно выбирают отрицательный запрос вместо исходного.
Наконец, мы представляем эту работу в виде следующего анализа и 4 запросов. Нет необходимости приводить способы перевода исходных запросов.
- Видеоанализ: xxx
- Запросы: [query1, query2, query3, query4]
- Причина: xxx
6.6 Intelligentsia для обработки естественного языка (NLP)
6.6.1 Большая языковая модель (LLM) Intelligentsia
Распознавание и выполнение инструкций по выполнению задач уже несколько десятилетий является фундаментальной проблемой интерактивного ИИ и обработки естественного языка. С учетом последних достижений в области глубокого обучения растет интерес к совместной работе в этих областях для улучшения взаимодействия человека и компьютера. Мы выделяем три конкретных направления, а также другие, направленные на улучшение интеллекта на основе языка:
- Использование инструментов и запросы к базе знаний. Это направление подчеркивает важность интеграции внешних баз знаний, веб-поиска и других полезных инструментов в процесс рассуждений интеллекта ИИ. Используя структурированные и неструктурированные данные из различных источников, интеллекты могут улучшить свое понимание и предоставить более точные и контекстуально релевантные ответы. Кроме того, это повышает способность интеллектов активно искать информацию, когда они сталкиваются с незнакомыми ситуациями или запросами, что обеспечивает более полный и обоснованный ответ. В качестве примеров можно привести Toolformer Schick et al. (2023) и Retrieve What You Need Wang et al. (2023g).
- Улучшенное интеллектуальное планирование и рассуждение тела. Расширение возможностей интеллекта в области рассуждений и планирования необходимо для эффективного взаимодействия человека и машины. Для этого необходимо разработать модели, способные понимать сложные команды, угадывать намерения пользователя и предсказывать потенциальные сценарии будущего. Этого можно достичь, попросив интеллекты поразмышлять о прошлых действиях и неудачах, как в ReAct Yao et al. (2023a), или сконструировав мыслительные процессы интеллектов как форму поиска Yao et al. (2023b). Моделируя различные исходы и оценивая последствия различных действий, интеллектуалы могут принимать более обоснованные, соответствующие контексту решения.
- Интеграция систем и человеческой обратной связи. ИИ-интеллекты, как правило, могут работать в двух основных средах: в той, которая дает четкие сигналы об эффективности их действий (обратная связь с системой), и в той, которая работает с людьми, способными дать вербальную критику (обратная связь с человеком). Это направление подчеркивает необходимость создания механизмов адаптивного обучения, которые позволят интеллектам совершенствовать свои стратегии и исправлять ошибки, например, в AutoGen В работе Wu et al. (2023). Способность постоянно учиться и адаптироваться на основе различных источников обратной связи гарантирует, что интеллект остается полезным и соответствует потребностям пользователей.
6.6.2 Общая большая языковая модель (LLM) Intelligentsia
Распознавание и понимание интеллектуального телесного контента и естественного языка уже несколько десятилетий является фундаментальной проблемой интерактивного ИИ и обработки естественного языка. С учетом последних достижений в области глубокого обучения растет интерес к совместному изучению этих двух областей для более глубокого понимания интеллектуального планирования тела или обратной связи с человеком для обоснования знаний и генерации естественного языка. Это ключевые компоненты многих HCI-интеллектов, таких как "AutoGen" Wu et al. (2023) и "Retrieve What You Need" Wang et al. (2023g).
6.6.3 Инструкции соответствуют Большой языковой модели (LLM) интеллекта
Кроме того, создание интеллекта LLM, который можно обучить эффективно выполнять инструкции человека, стало важной областью исследований. Первые модели использовали обратную связь с человеком для обучения моделей вознаграждения агентов, чтобы они имитировали человеческие предпочтения с помощью процесса, названного Reinforcement Learning Based on Human Feedback (RLHF), Ouyang et al. (2022). Этот процесс генерирует такие модели, как InstructGPT и ChatGPT. Для более эффективного обучения инструкциям в соответствии с интеллектом LLM без необходимости маркировки человеком исследователи разработали более эффективный метод тонкой настройки инструкций, который обучает интеллекту LLM непосредственно на парах инструкция/ответ, которые либо генерируются человеком, например, Dolly 2.0 ^5^^^5^Dolly 2.0 Blog Post Link, либо автоматически выводятся из LLM, например, Alpaca Taori et al. (2023). Общий процесс обучения Alpaca показан на рисунке 28.
![Agent AI: 探索多模态交互的边界-28 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/f2eebf3df8eb7d5.png)
Рисунок 28: Схема обучения, использованная для обучения модели Alpaca Taori et al. (2023). На высоком уровне доступные LLM используются для генерации большого количества примеров следования инструкциям из небольшого набора начальных задач. Сгенерированные примеры следования инструкциям затем используются для точной настройки инструкций в соответствии с LLM, доступными для базовых весов модели.
![Agent AI: 探索多模态交互的边界-29 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/4cdda6b3845c3ba.png)
Рисунок 29: Модель интеллектуального тела на основе логического трансформера Wang et al. (2023e). Мы интегрируем модуль логических рассуждений в модель абстрактного резюме на основе трансформера, чтобы наделить логические интеллекты способностью рассуждать о тексте и логике диалога, что позволит им генерировать более качественные абстрактные резюме и сократить количество фактических ошибок.
6.6.4 Эксперименты и результаты
Несмотря на растущую популярность разговорных систем и систем с обратной связью, эти виды ИИ все еще плохо справляются с генерацией фактологически корректных ответов на основе собственных неявных знаний, и поэтому часто используют внешние инструменты, такие как веб-поиск и механизмы поиска знаний, чтобы дополнить свои ответы при рассуждениях. Решение этой проблемы поможет создать более увлекательный опыт для пользователей во многих реальных приложениях. В социальных беседах (например, на платформах социальных сетей, таких как Instagram и Facebook) или на сайтах вопросов и ответов (например, Ask или Quora) люди обычно взаимодействуют с другими через серию комментариев и поиск в Интернете информации и знаний, относящихся к обсуждению. Поэтому задача создания раундов беседы в этом контексте не просто руководствуется традиционными моделями и задачами НЛП, а использует интеллект для создания диалогов с помощью интеллектуального поведения, которое отражает поиск и приобретение знаний Peng et al. (2023). Таким образом, интеллектуальные интеллекты для задач НЛП расширяют описание задачи и улучшают интерпретируемость ответа, добавляя явные шаги поиска и извлечения знаний во время диалога. Интеграция таких интеллектов для поиска и извлечения информации в Интернете в качестве обратной связи во время диалога поможет еще больше и глубже облегчить социальное взаимодействие между людьми и интеллектами Wang et al. (2023e). Как показано на рис. 29, мы представляем новую парадигму моделирования для языковой модели Transformer, которая обнаруживает и извлекает важные логические структуры и информацию из входного текста, а затем интегрирует их во входные вкрапления с помощью сложной многоуровневой иерархической логической проекции, чтобы внедрить логические структуры в предварительно обученную языковую модель в качестве интеллектуальных средств НЛП.Wang et al. 2023e) предложили новый подход к построению языковой модели-трансформера с помощью комбинации логического обнаружения, логического отображения и многослойного логического проецирования дляВстраивание входных данных с учетом логикиЗатем новая модель может быть разработана для обновления всех существующих языковых моделей Transformer доЛогический трансформаторчтобы постоянно улучшать свои показатели. Предложенные логические интеллекты-трансформеры стабильно достигают более высокой производительности, чем их базовые модели-трансформеры, благодаря более глубокому пониманию логической структуры текста. Для пользователей эти аспекты часто оказываются более важными для обеспечения содержательных и интересных диалогов за счет координации интеллектов между диалогом и поиском информации. Углубляясь в обработку естественного языка, в этой теме мы обсудим достижения и рейтинги, позволяющие сделать LLM более интеллектуальными и лучше подходящими для решения различных задач, ориентированных на язык.
Системы вопросов и ответов (QA) в открытом домене обычно следуют схемеИщите, потом читайтеПарадигма, в которойретривериспользуется для извлечения релевантных отрывков из большого корпуса, а затемсчитыватель (программное обеспечение)генерирование ответов на основе найденных отрывков и исходных вопросов. В работе Wang et al. (2023g) мы предлагаем простую и новую структуру для взаимного обучения с помощью структуры под названиемселектор знанийПромежуточные модули для улучшения интеллектаИщите, потом читайтеДля обучения модуля мы используем обучение с подкреплением. Комбинируя мелкозернистуюселектор знанийпривозитьИзвлечь, затем прочитатьПарадигма, целью которой является построение небольшого подмножества абзацев, сохраняющих информацию, относящуюся к вопросу. Как показано на рисунке 30, интеллект селектора знаний обучается как компонент нашей новой системы взаимного обучения, которая итеративно обучает селекторов знаний и читателей. Мы применяем простой и новый подход, который использует градиенты политики для оптимизации интеллекта селектора знаний, используя обратную связь от читателя, чтобы обучить его выбирать небольшой набор богатых информацией отрывков. Этот подход позволяет обойтись без грубого поиска или ручной разработки эвристики, не требуя аннотированных пар документов запроса для контроля. Мы показываем, что итеративное обучение интеллектов читателя и селектора знаний приводит к улучшению предсказания на ряде публичных эталонов Q&A с открытым доменом.
![Agent AI: 探索多模态交互的边界-30 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/b6a3ee7d855d66c.png)
Рис. 30: Архитектура предлагаемого механизма взаимного обучения для НЛП-интеллектов Wang et al. (2023g). В каждой эпохе поочередно выполняются фаза 1 и фаза 2. Во время фазы 1 параметры модели читателя остаются фиксированными и обновляются только веса селекторов знаний. Напротив, во время фазы 2 параметры модели читателя корректируются, а веса селекторов знаний остаются замороженными.
7 Агентский ИИ в различных модальностях, областях и реальностях
7.1 Агент для кросс-модального понимания
Мультимодальное понимание является серьезной проблемой при создании ИИ-агента общего назначения из-за отсутствия масштабных наборов данных, содержащих информацию о зрении, языке и поведении агента. В целом, данные для обучения агентов ИИ обычно зависят от конкретной модальности. Это приводит к тому, что большинство современных мультимодальных систем используют комбинации замороженных субмодулей. В качестве примера можно привести Flamingo Alayrac et al. (2022), BLIP-2 Li et al. (2023c) и LLaVA Liu et al. (2023c), в которых используются замороженная большая языковая модель (LLM) и замороженный визуальный кодер. Эти субмодули обучаются по отдельности на отдельных наборах данных, а затем слой адаптации обучается кодировать визуальный кодер в пространство встраивания большой языковой модели (LLM). Чтобы добиться дальнейшего прогресса в кросс-модальном понимании ИИ-агентов, стратегию использования замороженных LLM и визуальных кодировщиков, возможно, придется изменить. Действительно, недавно созданная визуально-лингвистическая модель RT-2 демонстрирует значительный прирост производительности при выполнении операций в области робототехники при совместной адаптации визуального кодера и большой языковой модели (LLM) как для робототехнических, так и для визуально-лингвистических задач Brohan et al. (2023).
7.2 Агент для междоменного понимания
Ключевой проблемой при создании универсального агента является уникальный визуальный облик и различные пространства действий в разных доменах. Люди способны интерпретировать изображения и видео из различных источников, включая реальный мир, видеоигры и специализированные области, такие как робототехника и здравоохранение, если они знакомы со спецификой этих областей. Однако существующие большие языковые модели (LLM) и визуальные языковые модели (VLM) часто демонстрируют значительные расхождения между данными, на которых они обучаются, и различными областями, в которых они применяются. В частности, обучение моделей агентов для предсказания конкретных действий создает значительные трудности при попытке разработать единую стратегию, способную эффективно обучать множество систем управления в разных областях. Как правило, в большинстве современных работ при применении системы в конкретном домене используется подход, при котором начинают с предварительно обученной базовой модели, а затем настраивают отдельную модель для каждого конкретного домена. Это не позволяет учесть все общие черты между доменами и приводит к уменьшению общего набора данных для обучения, вместо того чтобы использовать данные из каждого домена.
7.3 Интерактивные агенты для кросс-модальной и кросс-реальности
Разработка ИИ-агентов, способных успешно понимать и выполнять задачи в различных реальностях, является актуальной задачей, хотя недавно был достигнут определенный успех в создании изображений и сцен Huang et al. (2023a). В частности, агентам сложно понимать как реальный мир, так и среду виртуальной реальности из-за визуальных различий и независимых физических свойств среды. В контексте кросс-реальности миграция из симуляции в реальность является особенно важным вопросом при использовании стратегий, обученных на симуляторах, для обработки данных реального мира, о чем мы поговорим в следующем разделе.
7.4 Переход от моделирования к реальности
Методы, позволяющие развернуть модели, обученные в симуляторе, в реальном мире. Воплощенные агенты, особенно те, которые основаны на стратегиях обучения с подкреплением (RL), часто обучаются в симулированной среде. Эти симуляции не в точности повторяют реальные характеристики (например, помехи, свет, гравитацию и другие физические свойства). Из-за этого различия между симуляцией и реальностью модели, обученные в симуляции, часто не справляются с задачей при применении в реальном мире. Эта проблема известна как "проблема перехода от моделирования к реальности". Существует несколько подходов, которые можно использовать для решения этой проблемы:
- рандомизация доменовРандомизация домена - это метод обучения моделей при случайном изменении параметров (например, внешнего вида объекта, шума датчика и оптических свойств) в симулированной среде, чтобы справиться с неопределенностью и вариативностью реального мира Tobin et al. (2017). Например, при обучении навыкам хватания на основе обучения с подкреплением (RL) введение случайности в форму объекта может позволить стратегии адаптироваться к объектам с немного отличающейся формой Saito et al. (2022).
- адаптация домена: Адаптация доменов или миграция доменов - это метод, который позволяет преодолеть разрыв между симулированными и реальными доменами путем обучения модели на большом количестве симулированных изображений и небольшом количестве реальных изображений. В практических установках используются методы преобразования непарных изображений в изображения, такие как CycleGAN Zhu et al. (2017b), из-за сложности подготовки парных изображений в разных доменах. Существует несколько расширенных версий обучения с подкреплением, включая Reinforcement Learning -CycleGAN Rao et al. (2020), а также расширенные версии обучения по подражанию, например RetinaGAN Ho et al. (2021).
- Улучшенное моделирование: Реалистичное моделирование является ключом к переходу от моделирования к реальности. Часть этой работы достигается с помощью методов идентификации системы Zhu et al. (2017c); Allevato et al. (2020), направленных на определение параметров моделирования для имитации реальных условий. Кроме того, использование фотореалистичных симуляторов было бы эффективно в обучении с подкреплением на основе изображений Мартинес-Гонсалес и др. (2020); Мюллер и др. (2018); Шах и др. (2018); Сасабучи и др.
В то время как методы продолжают развиваться, миграция симуляций в реальность остается главной проблемой в исследованиях воплощенных агентов. Теоретические и эмпирические исследования необходимы для дальнейшего развития этих методов.
8 Непрерывное и самосовершенствование агентского ИИ
В настоящее время агенты ИИ на основе базовых моделей имеют возможность обучаться на множестве различных источников данных, что обеспечивает более гибкий источник данных для обучения. Два ключевых результата: (1) данные о взаимодействии с пользователем и человеком могут быть использованы для дальнейшего совершенствования агента, и (2) существующие базовые модели и артефакты моделирования могут быть использованы для создания обучающих данных. Мы обсудим каждый из этих аспектов более подробно в следующих разделах, но отметим, что, поскольку современные агенты ИИ в основном связаны с существующими предварительно обученными базовыми моделями, они, как правило, не учатся на основе текущего взаимодействия с окружающей средой. Мы считаем, что это интересное будущее направление, и предварительная работа Бусмалиса и др. предполагает, что самосовершенствующиеся агенты для управления роботами способны постоянно учиться и совершенствоваться благодаря взаимодействию с окружающей средой без необходимости наблюдения за ними Bousmalis et al. (2023).
8.1 Данные о взаимодействии с человеком
Основная идея использования данных о взаимодействии человека с человеком заключается в том, чтобы использовать большое количество взаимодействий агента с человеком для обучения и улучшения агента для будущих итераций. Существует несколько стратегий, которые можно использовать для улучшения агента с помощью взаимодействия человека с человеком.
- Дополнительные учебные данные: Возможно, самый простой способ использования взаимодействия человека и компьютера - это использование самих примеров взаимодействия в качестве обучающих данных для будущих итераций агента. Для этого обычно требуется стратегия фильтрации, чтобы отличить удачные примеры взаимодействия агента от неудачных. Фильтрация может быть основана на правилах (например, для достижения некоторого желаемого состояния конечной цели), на моделях (например, для классификации успешных и неуспешных взаимодействий) или выбираться вручную после специальной проверки и/или модификации примеров взаимодействия.
- Изучение человеческих предпочтений: Во время взаимодействия с пользователем агентская система может предложить пользователю несколько различных результатов моделирования и позволить ему выбрать лучший результат. Это обычно используется для больших языковых моделей (LLM), таких как ChatGPT и GPT-4, где пользователь может выбрать вывод (из нескольких), который лучше всего соответствует его предпочтениям.
- Обучение технике безопасности (тренировка "красной команды"): Учения "красной команды" в контексте агентного ИИ означают наличие специальной команды противника (человека или компьютера), которая пытается использовать и выявить слабые места и уязвимости в системе агентного ИИ. Несмотря на то, что упражнения "красной команды" носят состязательный характер, они часто используются как средство понимания того, как улучшить меры безопасности ИИ и снизить вероятность появления вредных результатов. Основной принцип заключается в обнаружении последовательных способов вызвать нежелательные результаты работы агента, чтобы можно было обучать модели на данных, явно корректирующих такое поведение.
8.2 Данные, полученные с помощью базовой модели
По мере того как академические и промышленные круги создавали надежные артефакты базовых моделей, разрабатывались методы извлечения и генерирования значимых обучающих данных из этих артефактов с использованием различных методов подсказки и сопряжения данных.
- Настройка инструкций большой языковой модели (LLM)Метод генерации инструкций из больших языковых моделей (LLM), которые следуют за обучающими данными, позволяет точно настраивать небольшие модели с открытым исходным кодом на основе результатов работы больших собственных LLM Wang et al (2022b). Например, Alpaca Taori et al. (2023) и Vicuna Zheng et al. (2023) основаны на семействе больших языковых моделей (LLM) Touvron et al. (2023) с открытым исходным кодом LLaMA, которые были настроены на основе различных результатов, полученных от ChatGPT и участников-людей. Этот подход к настройке инструкций можно рассматривать как форму дистилляции знаний, где более крупные Большие языковые модели (LLM) выступают в качестве моделей-учителей для более мелких учеников. Важно отметить, что, хотя было показано, что настройка инструкций с помощью больших языковых моделей (LLM) может передать стиль письма и некоторые способности следования инструкциям модели учителя модели ученика, все еще существует значительный разрыв между аутентичностью и компетентностью модели учителя и модели ученика Gudibande et al. (2023).
- Визуально-вербальные пары: В некоторых недавних работах предпринимались попытки увеличить количество и разнообразие данных предварительного обучения, доступных для визуально-лингвистического моделирования (ВЛМ), путем автоматической генерации подписей и других текстов для визуального контента. Например, в работе LLaVA Liu et al. (2023c) использовалось 150 000 примеров поведения при выполнении команд из текстовых и визуальных данных, которые в основном были сгенерированы Большой языковой моделью (LLM). В других работах было показано, что перемаркировка изображений с помощью визуальных языковых моделей (ВЯМ) может улучшить качество обучающих данных и последующих моделей генерации изображений Segalis et al. В области понимания видео было показано, что перемаркировка видео с помощью визуальных языковых моделей (ВЯМ) и больших языковых моделей (БЯМ) улучшает производительность и качество последующих визуальных языковых моделей (ВЯМ), обученных на перемаркированных видео Wang et al.
9 Наборы данных агентов и таблицы лидеров
Чтобы ускорить исследования в этой области, мы предлагаем два бенчмарка для мультиагентных игр и задач визуального языка на основе агентов, соответственно. Мы выпустим два новых набора данных - "CuisineWorld" и "VideoAnalytica" - а также набор базовых моделей. -Помимо набора базовых моделей, участникам предлагается исследовать новые модели и системы и представлять свои результаты в тестовом наборе нашей таблицы лидеров.
9.1 Набор данных "CuisineWorld" для мультиагентных игр
CuisineWorld - это текстовая игра, похожая на Overcooked! Она представляет собой платформу для сотрудничества и совместной игры агентов, управляемых ИИ. Этот набор данных позволит проверить эффективность совместной работы мультиагентных систем, давая представление о способности Большой языковой модели (LLM) и других систем работать вместе в динамических сценариях. В частности, набор данных будет сосредоточен на том, как агенты понимают цели и как они координируют свои действия друг с другом. Набор данных поддерживает два режима: централизованный режим с планировщиком и децентрализованный режим. Участники могут выбрать режим игры и представить свои результаты в нашей таблице лидеров.
9.1.1 Контрольные показатели
Для нашего конкурса мы опубликуем бенчмарк CuisineWorld, который включает в себя текстовый интерфейс с расширяемым файлом определения задач и интерфейс для мультиагентного взаимодействия и взаимодействия человека и компьютера. Мы вводим задачи игрового взаимодействия, целью которых является генерация релевантных и подходящих стратегий взаимодействия мультиагентов, максимизирующих эффективность взаимодействия. Мы оцениваем эффективность взаимодействия с помощью предложенной метрики оценки: CoS.
Набор данных "CuisineWorld" был собран компаниями Microsoft, UCLA и Стэнфордским университетом. Цель конкурса - изучить, как различные, существующие и новые техники взаимодействия, основанные на базовой Большой языковой модели (LLM), работают с этим эталоном, и установить надежный базовый уровень для задач мультиагентной игровой инфраструктуры.
Набор данных CuisineWorld включает в себя:
- Четко определенный набор задач совместной работы нескольких агентов.
- Система API для облегчения взаимодействия агентов.
- Автоматизированная система оценки.
(Ссылка для скачивания набора данных будет предоставлена в ближайшее время, и эта статья будет обновлена, чтобы включить ее сюда).
9.1.2 Задачи
- Мы предоставляем набор данных и соответствующие контрольные показатели под названием Microsoft MindAgent и, соответственно, выпускаем набор данных "CuisineWorld" для исследовательского сообщества.
- Мы предоставим эталоны для оценки и ранжирования представленных алгоритмов "MindAgent". Мы также предоставим базовые результаты, полученные с использованием популярной инфраструктуры.
9.1.3 Показатели и суждения
Качество эффективности совместной работы мультиагентов определяется с помощью новой автоматизированной метрики "cos" (из MindAgent Gong et al. (2023a)). Итоговый балл по нашей метрике рассчитывается как среднее значение метрик эффективности совместной работы, оцененных мультиагентной системой по всем задачам. Человеческие эксперты должны будут оценить индивидуальные ответы и дать субъективные оценки вовлеченности, широты и общего качества взаимодействия пользователя и агента.
9.1.4 Оценка
- Автоматизированная оценкаМы планируем начать публикацию таблицы лидеров в день релиза (TBD). Мы планируем начать публикацию таблицы лидеров в день релиза (TBD), где зарегистрированным участникам будет предложено представить свои результаты по заданиям, связанным с набором данных "CuisineWorld" (набор данных, который мы публично публикуем для таблицы лидеров). Представление результатов завершится в день окончания (TBD). Каждая команда должна будет предоставить свои результаты, полученные на тестовом наборе для автоматической оценки метрики "cos".
- Ручная оценка в наших картах. Участникам лидерборда нужно будет предоставить файл отправки, сгенерированный локальным скриптом оценки. Мы будем использовать систему evalAI для проверки файла и иметь возможность повторного запуска кода для претендентов на звание лучших. Поэтому команды также должны предоставить свой код с самоописанием того, как они выполнили свой код. Ручная оценка будет проводиться командой организации.
- Объявлены победители. Мы объявим победителей и опубликуем итоговые оценки работ в нашей таблице лидеров.
9.2 Набор данных для предварительного обучения аудио-видео-языкам.
Мы представляем VideoAnalytica: новый эталон для анализа видеопрезентаций на предмет понимания. VideoAnalytica фокусируется на использовании видеопрезентаций в качестве помощи для лучшего понимания сложных, высокоуровневых рассуждений, заложенных в длинных обучающих видео. Цель - оценить когнитивные возможности языковых моделей видео, вывести их за рамки простых задач распознавания и базового понимания к более сложному и тонкому пониманию видео. В VideoAnalytica особое внимание уделяется интеграции нескольких модальностей (например, аудио, видео и языка) и способности моделей применять знания, специфические для данной области, для понимания и интерпретации информации, представленной в видео. В частности, VideoAnalytica решает две основные задачи:
- 1.
Поиск видеотекстов: Эта задача предполагает точное извлечение релевантного текста из обучающего видео. Задача состоит в том, чтобы отличить релевантную информацию от нерелевантной, что требует глубокого понимания содержания видео и анализа презентации для извлечения правильного запроса. Чтобы еще больше повысить сложность этих задач, мы вводим в набор данных жесткие негативные примеры, сгенерированные Большой языковой моделью (LLM). Мы вручную проверяем сгенерированные отрицательные примеры и удаляем те, которые делают задачу некорректной и несправедливой (например, отрицательные примеры являются достоверными). - 2.
Информационные викторины с видеопомощью: Это задание требует от модели ответить на вопросы, основанные на информации, извлеченной из видео. Основное внимание уделяется сложным вопросам, требующим аналитического мышления и глубокого понимания видеопрезентации.
Чтобы облегчить разработку аудио-видео-вербального агента для анализа понимания видео, мы ввели таблицу лидеров для двух задач в VideoAnalytica.
- Участникам лидерборда необходимо будет представить свои решения для оценки. Оценка будет основана на производительности модели в двух задачах, а результаты будут отображаться на доске лидеров. Участники должны будут предоставить свой код, а также подробное объяснение своего подхода и методологии.
- Этические соображения: Основное внимание в рейтинге уделяется пониманию и интерпретации видеоконтента, который может быть использован в системах видеонаблюдения или других приложениях, нарушающих неприкосновенность частной жизни. Поэтому очень важно учитывать этические последствия и потенциальное злоупотребление технологией. Мы призываем участников учитывать эти аспекты в своих работах и содействовать этическому использованию ИИ.
10 Заявление о более широком воздействии
Эта статья и связанный с ней форум ^6^^^^6^https://multimodalagentai.github.io призваны стать катализатором инновационных исследований, способствовать сотрудничеству и стимулировать следующую волну внедрения ИИ. Сосредоточив внимание на мультимодальных интеллектах, мы подчеркиваем будущее направление взаимодействия человека и компьютера, лидеры и решения. Мы подробно описываем три области, в которых мы вносим значительный вклад в развитие сообщества.
Прежде всего, мы надеемся, что наш форум поможет исследователям ИИ разработать решения, основанные на реальных проблемах, таких как игры, робототехника, здравоохранение и восприятие длинных видео. В частности, развитие мультимодальных интеллектов в играх может изменить игровую индустрию, создав более захватывающий и персонализированный игровой опыт. В робототехнике разработка адаптивных роботизированных систем может произвести революцию в различных отраслях промышленности, от производства до сельского хозяйства, потенциально решая проблему нехватки рабочей силы и повышая эффективность. В здравоохранении использование больших языковых моделей (LLM) и визуальных языковых моделей (VLM) в качестве диагностического интеллекта или ассистентов по уходу за пациентами может привести к более точным диагнозам, улучшению ухода за пациентами и расширению доступа к медицинским услугам, особенно в районах с недостаточным уровнем обслуживания. Кроме того, способность этих моделей интерпретировать длинные видеоролики может найти широкое применение - от повышения эффективности онлайн-обучения до улучшения работы служб технической поддержки. В целом, темы, рассматриваемые на наших форумах, окажут значительное влияние на отрасли и людей по всему миру.
Во-вторых, мы надеемся, что наш форум станет ценным ресурсом для практиков и исследователей ИИ, служащим платформой для изучения и более глубокого понимания различных сложных проблем, возникающих при внедрении интеллектуальных систем ИИ в различных средах и контекстах. Такое исследование включает, например, понимание специфических ограничений и потенциальных опасностей агентных систем ИИ, разработанных для конкретных областей, таких как диагностика в здравоохранении. В этой области такие проблемы, как опасные галлюцинации в поведении ИИ, могут представлять значительный риск, что подчеркивает исключительную важность тщательного проектирования и тестирования. Однако при рассмотрении интеллектуальных ИИ, созданных для игровой индустрии, эти специфические рейтинги могут быть менее актуальны или очевидны. В этих сферах развлечений разработчики могут отдавать предпочтение другим препятствиям, например, необходимости для ИИ выполнять более открытую генерацию и проявлять креативность, динамически адаптируясь к непредсказуемым игровым сценариям и взаимодействиям игроков. Посетив форум, участники получат представление о том, как эти разные среды диктуют фокус и направление развития ИИ, и как лучше всего адаптировать решения ИИ для удовлетворения этих разных потребностей и преодоления релевантных таблиц лидеров.
В-третьих, различные элементы нашего мероприятия, включая презентации экспертов, информативные постеры и победителей двух лидербордов, призваны обеспечить содержательный, но краткий обзор последних и значимых тенденций, направлений исследований и инновационных концепций в области мультимодального интеллекта. В этих презентациях будут обобщены ключевые выводы и разработки, раскрыты новые системы, идеи и технологии в области ИИ для мультимодального интеллекта. Эта коллекция знаний не только будет полезна участникам Форума, желающим углубить свое понимание и экспертизу в данной области, но и послужит динамичным и богатым хранилищем ресурсов. Посетители сайта нашего Форума смогут воспользоваться этим хранилищем информации, чтобы узнать и понять передовые достижения и инновационные идеи, которые будут определять будущее ИИ для мультимодальных интеллектов. Мы стремимся стать полезной базой знаний как для новичков, так и для ветеранов в этой области. Мы надеемся, что, работая с этими ресурсами, участники и посетители сайта узнают о трансформационных изменениях и новых подходах, которые формируют захватывающий ландшафт ИИ для мультимодальных интеллектов.
11 Этические соображения
Мультимодальные системы ИИ имеют множество применений. Помимо интерактивного ИИ, фундаментальные мультимодальные модели могут помочь в создании контента для роботов и искусственных интеллектов, а также в продуктивных приложениях, помогающих воспроизводить, пересказывать, предсказывать движения или компоновать 3D- или 2D-сцены. Фундаментальные достижения в области искусственного интеллекта помогают достичь этих целей, и многие из них выиграют от лучшего понимания того, как моделировать тело и эмпатию в симулированной реальности или в реальном мире. Вероятно, многие из этих приложений принесут положительные результаты.
Однако эта технология может быть использована и злоумышленниками. Интеллектуальные системы ИИ, генерирующие контент, могут быть использованы для манипулирования или обмана людей. Поэтому важно, чтобы при разработке этой технологии соблюдались принципы ответственного подхода к ИИ. Например, четко информировать пользователей о том, что контент генерируется системами ИИ, и предоставлять пользователям возможность настраивать такие системы. ИИ разумного тела может быть использован для разработки новых способов обнаружения манипулятивного контента - отчасти потому, что он обладает богатыми галлюцинаторными свойствами большой базовой модели - и тем самым поможет решить альтернативную проблему реального мира.
Например, 1) очень важно, чтобы интеллектуальные технологии Large Language Modelling (LLM) и Visual Language Modelling (VLM) применялись в сфере здравоохранения на этической основе, особенно в таких деликатных областях, как здравоохранение. ИИ-интеллекты, обученные на необъективных данных, могут усугубить неравенство в здравоохранении, ставя неточные диагнозы уязвимым группам населения. Кроме того, обработка ИИ-интеллектами конфиденциальных данных пациентов вызывает серьезные опасения по поводу неприкосновенности частной жизни и конфиденциальности.2) В игровой индустрии ИИ-интеллекты могут изменить роль разработчиков, переключив их внимание с написания сценариев для неигровых персонажей на улучшение процесса обучения интеллектов. Аналогичным образом, адаптивные роботизированные системы могут изменить роль производства, требуя новых навыков, а не заменяя людей. Ответственное реагирование на эти изменения необходимо для минимизации возможных социально-экономических потрясений.
Кроме того, основной задачей ИИ интеллектуальных тел является обучение стратегиям совместной работы в симуляторах, что рискованно при непосредственном применении стратегий в реальном мире из-за погрешности в распределении. Необходимо создать надежные механизмы тестирования и постоянного мониторинга безопасности, чтобы минимизировать риск непредсказуемого поведения в реальных сценариях. Наш набор данных "ВидеоАналитика" был собран из Интернета, и, учитывая, что он не является полностью репрезентативным источником, мы прошли этические проверки и юридические процедуры от Microsoft и Университета Вашингтона. Несмотря на это, мы должны помнить о возможных погрешностях в корпусе. Распределение данных можно охарактеризовать несколькими способами. На этом семинаре мы зафиксировали различия между распределением уровня интеллекта в нашем наборе данных и в других существующих наборах данных. Однако в набор данных или практикум можно включить гораздо больше. Мы считаем, что необходимо больше методов или обсуждений, соответствующих реальной задаче или теме, а также предоставление этих данных или систем.
Мы посвятим часть нашего проекта обсуждению этих этических вопросов, изучению потенциальных стратегий смягчения последствий и внедрению ответственных мультимодальных ИИ-интеллектов. С помощью этой статьи мы надеемся помочь большему числу исследователей совместно ответить на эти вопросы.
12 Заявление о разнообразии
Исследуя адаптивность моделей интеллектуального тела ИИ в различных областях, мы, естественно, охватываем широкий спектр рейтингов, перспектив и решений. В этом духе наш проект нацелен на создание разнообразного сообщества, исследующего различные темы в области мультимодального и интеллектуального ИИ тела.
Исходя из этих принципов, данный проект посвящен передовым мультимодальным системам, которые эффективно взаимодействуют в физических и виртуальных средах и способствуют эффективному взаимодействию с людьми. В связи с этим мы намерены привлечь экспертов и практиков из самых разных технических специальностей, культур, стран и академических областей для обсуждения важных тем, включая, но не ограничиваясь ими:
- Применение базовой модели: разработка интеллектов с интегрированными модальностями (аудио, изображение, текст, сенсорные входы), направленных на улучшение их распознавания и реагирования на различные приложения.
- Общие сквозные системы: разработка сквозных моделей, обучаемых на основе больших данных, с целью создания общих и адаптируемых решений в области ИИ.
- Принцип модального обоснования: интеграция информации из различных модальностей для повышения согласованности и эффективности обработки данных.
- Интуитивные человеко-компьютерные интерфейсы: разработка эффективных и осмысленных взаимодействий между людьми и интеллектами.
- Taming Large Language Models (LLM)/Visual Language Models (VLM): изучение новых способов решения общих проблем крупномасштабных моделей, таких как иллюзии и смещения в выводах.
Мы стремимся расширить наше коллективное понимание потенциала и ограничений ИИ для интеллекта, используя наши уникальные и разнообразные точки зрения. Мы твердо верим, что такой подход не только обогатит индивидуальные взгляды, но и расширит коллективные знания сообщества и будет способствовать более широкому общему видению более широкой доски лидеров, стоящей перед мультимодальными ИИ-интеллектами.
Приложение AGPT-4V Подробная информация об агенте
Мы используем стандартные системные подсказки GPT-4V, если не указано иное. На рисунке 31 подробно показан процесс запроса GPT-4V на игру Minecraft и то, как мы генерировали ответы GPT-4V.
![Agent AI: 探索多模态交互的边界-12 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/be067db58aceaff.png)
Рисунок 31: Мы приводим фрагменты кода, чтобы показать полный процесс вызова GPT-4V для видео Minecraft. Сначала мы кодируем кадры видео, а затем вызываем конечную точку GPT-4V. Ответ модели отображается в нижней части экрана.
Приложение BGPT-4V для Bleeding Edge
Bleeding Edge - это командная боевая игра от третьего лица, в которой игроки пытаются захватить точки цели или собрать больше ресурсов, чем вражеская команда. На рисунке 32 показаны примеры входов и выходов при подаче сигнала GPT-4V для игрового процесса Bleeding Edge. По сравнению с Minecraft, мы качественно обнаружили, что GPT-4V менее глубоко понимает визуальный контент и правила игры. Это может быть связано с (1) большим количеством данных Minecraft в обучающих данных GPT-4V и (2) более высокой визуальной сложностью Bleeding Edge по сравнению с Minecraft.
![Agent AI: 探索多模态交互的边界-26 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/d0c2225b640deec.png)
Рисунок 32: GPT-4V способен генерировать содержательный контент для таких игр, как Bleeding Edge, с перспективой от третьего лица и визуально сложными сценами. Чтобы передать в GPT-4V большое количество кадров (48), мы подали их в виде сетки и наложили номера кадров на каждый из них (как показано выше).
Приложение CGPT-4V для Microsoft Flight Simulator
![Agent AI: 探索多模态交互的世界[李飞飞-经典必读]-1 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/f563b55ff328240.png)
Рисунок 33: GPT-4V может генерировать содержательные описания контента для игр Microsoft Flight Simulator. Пока игрок в авиасимуляторе управляет самолетом, агент GPT-4V может предоставить высокоуровневое описание действий, отображая их через вид кабины и внешний вид самолета, управляя различными элементами управления и приборами для поддержания нужной скорости и высоты полета при навигации по виртуальному воздушному пространству. Чтобы ввести большое видео, мы выбираем несколько ключевых кадров (6 кадров) для отправки в GPT-4V. Мы вводим каждый ключевой кадр отдельно, без использования сетки (как показано на рисунке выше).
Как показано на рисунке 33, агент на базе GPT-4V обеспечивает высокоуровневое описание действий игрока в Microsoft Flight Simulator. Он описывает, как игрок, используя вид из кабины и внешний вид самолета, управляет самолетом, управляя различными элементами управления и приборами для поддержания необходимой скорости и высоты полета, перемещаясь при этом в виртуальном воздушном пространстве.
Дополнение DGPT-4V для Assassin's Creed: Odyssey
![Agent AI: 探索多模态交互的世界[李飞飞-经典必读]-4 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/02efca6d6cb810e.png)
Рисунок 34: GPT-4V способен генерировать содержательные описания контента для игры Assassin's Creed: Odyssey. Агенты на базе GPT-4V также могут создавать высокоуровневые описания действий, например, "персонажи на изображении [участвуют] в ночных сражениях в исторических кампаниях, орудуют копьями и используют специальные способности, такие как "бросок быка", сражаются с многочисленными врагами с индикаторами уровня, управляя своими жизнями и способностями в ролевой игре от третьего лица Управление жизнью и способностями в ролевой игре от третьего лица". Чтобы ввести большое видео, мы выбираем несколько ключевых кадров (8 кадров) для отправки в GPT-4V. Мы вводим каждый ключевой кадр отдельно, без использования сетки (как показано выше).
Как показано на рисунке 34, агент GPT-4V предоставляет высокоуровневое описание действий персонажа на изображении, а именно: персонаж участвует в ночных сражениях в исторической кампании, владеет копьем и использует специальные способности, такие как "бросок быка", сражается с многочисленными врагами с индикаторами уровня и управляет своими жизнями и способностями в ролевой игре от третьего лица. В GPT-4V также показано, как игрок участвует в масштабном сценарии рукопашного боя, управляя персонажем с красными акцентами на броне, которому предлагается использовать способность "бросок быка" по инструкциям на экране. Окружающая обстановка темна и полна пламени, что наводит на мысль о поле боя, а персонаж игрока противостоит множеству врагов с индикаторами уровня и полосками крови над головой. Действие является частью обучающей или боевой последовательности, в которой игрок изучает и применяет боевые способности.
Дополнение EGPT-4V для Gears of War 4
![Agent AI: 探索多模态交互的边界-11 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/6231ca0c54565a4.png)
Рис. 35: GPT-4V способен генерировать содержательные описания контента для игры Gears of War 4. Агент GPT-4V предоставляет высокоуровневое описание действия, то есть игрок участвует в боевом сценарии в визуально насыщенной футуристической среде, напоминающей промышленный или военный комплекс. Персонаж, облаченный в броню и оснащенный огнестрельным оружием, перемещается по местности, используя укрытия и системы прицеливания для поражения противника. Запечатленные действия включают в себя прицеливание из-за укрытия, стрельбу по врагам, получение урона (на что указывают визуальные подсказки на экране) и ближний бой. Окружающая среда отличается ночным освещением, при этом искусственные источники света подсвечивают интересные области или действия. В определенные моменты персонаж игрока появляется в виде прозрачного силуэта, который может указывать на особую способность или временное состояние, например, неуязвимость или скрытность. Чтобы ввести большое видео, мы выбираем несколько ключевых кадров (10 кадров) для отправки в GPT-4V. Мы вводим каждый ключевой кадр отдельно, без использования сетки (как показано выше).
Как показано на ФИГ. 35, на основе предоставленной 10-кадровой видеопоследовательности агент GPT-4V может предоставить общее описание движений игрока в видеоигре:
"Игрок перемещает персонажа по ночной промышленной среде, стратегически скрываясь за различными объектами, такими как ящики и стены. Персонаж вооружен оружием и вступает в бой с вражескими существами. Игрок использует огнестрельное оружие, а также может применять атаки ближнего боя, как показано в Close Quarters Combat. Персонаж управляет своими боеприпасами и жизнями, о чем свидетельствуют визуальные подсказки на экране (например, мигающий красный индикатор, который обычно указывает на то, что персонаж получает урон).
Кроме того, игрок, судя по всему, действует тактически, переключаясь между различными укрытиями, чтобы продвигаться вперед или защищаться от врагов. В какой-то момент активируются щиты, что говорит о том, что игрок реагирует на входящий огонь, используя защитные возможности. Персонажи также, похоже, перезаряжают оружие, что предполагает элемент управления ресурсами во время боя. Эффекты крови и ударов указывают на успешные попадания по врагам.
Персонаж игрока сотрудничает с союзниками, поскольку поблизости можно увидеть других персонажей, которые участвуют в аналогичных боевых действиях. В окружении есть взаимодействующие элементы, например, взрывающиеся бочки, которые игрок может использовать в своих интересах.
Сценарии изображают стремительные действия с акцентом на стратегическое движение, стрельбу и понимание ситуации, чтобы одолеть противников и потенциально достичь определенных целей в игре".
Приложение FGPT-4V для "Звездного неба
![Agent AI: 探索多模态交互的世界[李飞飞-经典必读]-1 Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]](https://aisharenet.com/wp-content/uploads/2025/01/fba8677cdcba045.png)
Рис. 36: Способность GPT-4V генерировать содержательные описания контента для игры Starsky and Hutch на консоли X-Box. Агент GPT-4V предоставляет высокоуровневые описания действий в этой игре на космическую тематику. Чтобы ввести большое видео, мы выбрали несколько ключевых кадров (10 кадров) для отправки в GPT-4V. Мы вводили каждый ключевой кадр отдельно, без использования сетки (как показано выше).
Как показано на рисунке 36, на основе 10-кадровой видеопоследовательности, предоставленной для Stars, агент GPT-4V предоставляет общее изображение действий игрока в видеоигре. Согласно GPT-4V, "На изображении представлена последовательность событий в игре Stars, показывающая взаимодействие игрока в шахтерской среде". Ниже приводится описание последовательности:
- Игрок стоит в тускло освещенной подземной пещере со сталактитами рядом с другим персонажем в космическом снаряжении. Перед ними подсвеченная путевая точка, указывающая на цель или интересующее место.
- Игрок проходит по внутреннему пространству промышленного предприятия, возможно, горнодобывающей станции, и подходит к другому персонажу. На Heads-Up Display (HUD) появляется строка диалога "Supervisor Lin", что указывает на взаимодействие с NPC (неигровым персонажем) и, возможно, на брифинг или обновление миссии.
- Игрок, похоже, следует за NPC Supervisor Lin по пещерам, что намекает на управляемую часть игры, в которой NPC направляют игрока к определенным локациям или квестам.
- Диалог в лесу намекает на точку принятия решения или обновление квеста, которое может направить игроков к новым целям, связанным с ресурсом "большая жила".
- Игрок снова встречает супервайзера Лина, который дает указания или информацию о залежах металла, намекая на начало миссии по добыче или исследованию новой области.
- В этом кадре игрок наблюдает за машиной или взаимодействует с ней, а другой персонаж, Изабель, показывает действия или диалог, связанные с работой устройства или техническими работами.
- Игрок смотрит вниз и видит пересеченную местность и два светящихся объекта, которые могут представлять собой ресурсы, которые нужно собрать, или точки интереса для миссии.
- Игрок исследует определенный ресурс, обозначенный как "Месторождение бериллиума" на головном дисплее, что указывает на то, что происходит сбор ресурсов или добыча полезных ископаемых.
- Игрок ходит по пещере, возможно, ищет другие ресурсы или перемещается к следующей цели, как показал ранее другой персонаж в космическом снаряжении.
- Игрок находится в темной части пещеры с двумя светящимися маркерами, указывающими путь или точку цели, которую нужно достичь.
На протяжении всего изображения игрок участвует в миссии, которая включает в себя исследование, взаимодействие с NPC, сбор ресурсов и, возможно, управление техникой в шахтерской среде. Элементы головного экрана, такие как путевые точки, текст диалогов и обновления миссии, обеспечивают контекст для действий игрока и целей игры."
Профиль автора
Зейн Дюранте
Кандидат наук, компьютерные науки, Стэнфордский университет
E-mail: durante@stanford.edu
Сайт: https://zanedurante.github.io/
Зейн Дюранте - аспирант в Стэнфордской лаборатории зрения под руководством доктора Фей-Фей Ли. В сферу его научных интересов входят понимание видео, связь компьютерного зрения с естественным языком и применение искусственного интеллекта в больницах. Он возглавляет сотрудничество между Стэнфордской школой медицины и Стэнфордской лабораторией зрения по созданию набора данных, содержащих описания видеоклипов больничных сцен на естественном языке. Его работа в аспирантуре финансировалась стипендией Национального научного фонда для аспирантов.
Цюйюань Хуан
Главный научный сотрудник Microsoft Research, Редмонд, штат Вашингтон, США.
E-mail: qihua@microsoft.com
Сайт: https://www.microsoft.com/en-us/research/people/qihua/
Цююань Хуанг - главный исследователь в группе глубокого обучения в Microsoft Research (MSR) в Редмонде, штат Вашингтон. Ее текущие исследовательские интересы сосредоточены на глубоком обучении, мультимодальности и обработке естественного языка, особенно на агентском ИИ для игр, робототехники и здравоохранения; интеллектуальном рассуждении на основе знаний для интерактивного ИИ; нейросимволических вычислениях для вывода; и крупномасштабных базовых моделях для НЛП и мультимодальности.
Наоки Укэ
Исследователь из компании Microsoft в Редмонде, штат Вашингтон.
E-mail: naoki.wake@microsoft.com
Сайт: https://www.microsoft.com/en-us/research/people/nawake/
Наоки Ваке - научный сотрудник исследовательской группы по прикладной робототехнике в Microsoft. Его текущие исследования связаны с разработкой мультимодальных систем восприятия и систем совместной работы с жестами речи для роботов. В 2014 году Наоки получил степень бакалавра технических наук в Токийском университете, а в 2019 году - степень доктора философии в области информационных наук и технологий.
Ран Гун
Докторант факультета компьютерных наук Калифорнийского университета.
E-mail: nikepupu@ucla.edu
Сайт: https://nikepupu.github.io
Ран Гонг - аспирант лаборатории VCLA в Калифорнийском университете. Область его исследований лежит на пересечении робототехники, компьютерного зрения, компьютерной графики и машинного обучения. Его исследования посвящены воплощенному моделированию и взаимодействию с целью создания интеллектуальных моделей поведения, которые могут решать различные задачи в различных условиях и способны сотрудничать с людьми. Он получил степень бакалавра наук в области компьютерных наук и инженерии в Калифорнийском университете.
Пак Чжэ Сун
Аспирант, Университет Вашингтона
E-mail: jspark96@cs.washington.edu
Сайт: https://homes.cs.washington.edu/~jspark96/
Чжэ Сун - аспирант под руководством Еджина Чоя и Али Фархади. Его исследования сосредоточены на разработке моделей с мультимодальными рассуждениями. Его интересует оснащение моделей основами, которые помещают лингвистические понятия в визуальную модальность и позволяют им понимать мультимедийный контент так же, как человек обрабатывает визуальную информацию.Чжэ Сун получил степень бакалавра наук по информатике в Калифорнийском университете в Беркли.
Бидипта Саркар
Выпускник Стэнфордского университета
E-mail: bidiptas@stanford.edu
Сайт: https://bsarkar321.github.io/
Бидипта Саркар - студент старших курсов Стэнфордского университета и член Стэнфордской лаборатории ILIAD Lab. Его исследования направлены на создание искусственно интеллектуальных агентов, которые могут взаимодействовать с окружающей средой и безопасно работать совместно с людьми и другими автономными агентами.
Рохан Таори
Кандидат наук, компьютерные науки, Стэнфордский университет
E-mail: rtaori@cs.stanford.edu
Сайт: https://www.rohantaori.com/
Рохан Таори - аспирант лаборатории искусственного интеллекта в Стэнфордском университете. Его исследования посвящены основам машинного обучения в контексте систем реального мира. В последнее время Рохан расширяет границы применения больших языковых моделей с открытым исходным кодом, настраивая их для создания полезных помощников общего назначения. Рохан также заинтересован в дополнении больших языковых моделей мультимодальными возможностями, позволяющими им рассуждать об изображениях и видео. Рохан получил степень бакалавра в области компьютерных наук в Калифорнийском университете в Беркли.
Юсуке Нода
Главный инженер-программист. Microsoft Gaming, Редмонд, штат Вашингтон.
E-mail: yusuke.noda@microsoft.com
Сайт: https://www.linkedin.com/in/yusuke-noda-908797/
Юсуке Нода - главный инженер-программист игровой платформы Microsoft. Он руководил разработкой игровой инфраструктуры для Xbox One и Xbox Cloud Gaming и имеет более чем 16-летний опыт создания эффективной инфраструктуры для облачных и игровых технологий.
Димитрий Терзопулос
Заслуженный профессор Калифорнийского университета, лауреат премии Академии компьютерных наук и предприниматель.
E-mail: dt@cs.ucla.edu
Сайт: https://web.cs.ucla.edu/~dt/
Д-р Димитри Терзопулос - заслуженный профессор и профессор канцлерского факультета компьютерных наук Калифорнийского университета, где он руководит Лабораторией компьютерной графики и зрения Калифорнийского университета. Он также является соучредителем и главным научным сотрудником VoxelCloud, Inc. - многонациональной компании по разработке ИИ для здравоохранения. Является стипендиатом Гуггенхайма, членом Лондонского королевского общества (FRS) и Королевского общества Канады (FRSC), членом Ассоциации вычислительной техники (ACM), пожизненным членом Института инженеров электротехники и электроники (IEEE), членом Азиатско-Тихоокеанской ассоциации искусственного интеллекта (AAIA), заслуженным членом Международного института инженерии и технологии (IETI), членом Европейской академии наук (EAS) и Нью-Йоркской академии наук (NYAS). Является членом Европейской академии наук (EAS) и Нью-Йоркской академии наук (NYAS), а также пожизненным членом Sigma Xi.
Йеджин Чой
Заведующий кафедрой Виснера-Сливаки и профессор Бретт Хелсел в Университете Вашингтона, старший научный сотрудник и стипендиат Макартуров в Институте искусственного интеллекта Аллена.
E-mail: yejin@cs.washington.edu
Сайт: https://homes.cs.washington.edu/~yejin/
Йеджин - заведующая кафедрой Виснера-Сливаки и профессор Бретт Хелсел в Университете Вашингтона, а также старший научный сотрудник Института искусственного интеллекта Аллена. В 2018 году она получила премию Anita Borg Early Career Award. Она является получателем стипендии Фонда Макартуров на 2020 год. Она получила награды за выдающиеся доклады на AAAI 2020, Neurips 2021, ICML 2022 и ACL 2023, а также награды за лучшие доклады на NAACL 2022 и ACL 2023. Она является одним из главных организаторов COLM 2024, академической площадки, посвященной исследованиям в области языкового моделирования. Ее основные научные интересы связаны с обработкой естественного языка, машинным обучением и рассуждениями в искусственном интеллекте, а также с более широкими интересами в области компьютерного зрения и цифровых гуманитарных наук.
Фэй-Фэй Ли
Профессор компьютерных наук, Стэнфордский университет
E-mail: feifeili@stanford.edu
Сайт: https://profiles.stanford.edu/fei-fei-li/
Фей-Фей - инаугурационный профессор Секвойи на факультете компьютерных наук Стэнфордского университета и содиректор Института человекоцентрированного искусственного интеллекта в Стэнфорде. С 2013 по 2018 год она занимала должность директора Стэнфордской лаборатории искусственного интеллекта. Во время академического отпуска в Стэнфорде с января 2017 по сентябрь 2018 года доктор Ли работала вице-президентом Google и главным научным сотрудником по искусственному интеллекту/машинному обучению в Google Cloud. С тех пор она является членом совета директоров или советником нескольких государственных и частных компаний.
Кацуси Икеучи
Старший главный менеджер по исследованиям в Microsoft и пожизненный член IEEE. Microsoft Research, Редмонд, Вашингтон, США. Пожизненный член IEEE.
E-mail: katsuike@microsoft.com
Сайт: https://www.microsoft.com/en-us/research/people/katsuike/
Доктор Кацуси Икеучи получил степень бакалавра в области машиностроения в Киотском университете в 1973 году и степень доктора философии в области информационной инженерии в Токийском университете в 1978 году. После трех лет работы в Лаборатории искусственного интеллекта Массачусетского технологического института, пяти лет работы в Лаборатории электронных технологий Министерства международной торговли и промышленности Японии, 10 лет работы в Институте робототехники Университета Карнеги-Меллон и 19 лет работы в Институте промышленных наук Токийского университета в 2015 году он стал главным научным сотрудником Microsoft. За время работы в CMU и Токийском университете он руководил более чем 50 аспирантами.
Сфера его научных интересов - компьютерное зрение, робототехника и компьютерная графика. Он получил несколько наград за лучшие работы в этих областях, в том числе премию Дэвида Марра в области компьютерного зрения и премию IEEE Robotics and Automation Society K. S. Fu Memorial Best Paper Award.
Его общественная деятельность включает: генеральный председатель IROS95, ITSC99, IV01, ICCV05, ACCV07, ICCV17; программный председатель CVPR96, ICCV03, ICRA09, ICPR12, ICCV15; ИЦ IJCV (2000-2017), ИЦ IJ ITS (2012-2014), ассоциированный редактор IEEE Trans. EIC для IJCV (2000-2017), EIC для IJ ITS (2012-2014), ассоциированный редактор IEEE Trans. RA, IEEE Trans. PAMI; заслуженный лектор IEEE Signal Processing Society 2000-2002, IEEE Robotics and Automation Society 2004-2006, и IEEE Computer Society 2008-2010.
Благодаря этим исследованиям и общественной работе он получил (пожизненные) стипендии от IEEE, IEICE, IPSJ и RSJ. Он получил награду Distinguished Researcher Award от IEEE-PAMI, медаль с пурпурной лентой от императора Японии, премию Окавы от Фонда Окавы и несколько наград за достижения в области исследований от японских профессиональных ассоциаций.
Хой Во
Сотрудник по технологиям. Microsoft Games and X-Box Emerging Technologies, Редмонд, штат Вашингтон, США.
E-mail: hoiv@microsoft.com
Сайт: https://www.linkedin.com/in/hoi-vo-193420/
Хой Во - технический исследователь в игровом подразделении Microsoft, специализирующийся на интеграции AGI с новыми игровыми IP. Он сыграл ключевую роль в создании сервиса Xbox Cloud Gaming и руководил облачными и игровыми разработками в подразделениях Microsoft, включая платформу Microsoft Windows Azure. Он занимается оптимизацией моделей искусственного интеллекта для эффективной работы на периферии и использования облачных технологий для обработки сценариев, выходящих за рамки возможностей аппаратного обеспечения, включая тонкую настройку моделей, чтобы сделать их более привлекательными для различных игровых процессов.
Цзяньфэн Гао
Заслуженный ученый и вице-президент Microsoft, член IEEE. Microsoft Research, Редмонд, штат Вашингтон, США. Член IEEE.
E-mail: jfgao@microsoft.com
Сайт: https://www.microsoft.com/en-us/research/people/jfgao/
Д-р Цзяньфэн Гао - заслуженный ученый и вице-президент Microsoft Research, член IEEE, заслуженный член ACM и нынешний руководитель группы глубокого обучения в Microsoft Research. С 2014 по 2017 год он занимал должность руководителя исследовательского направления Business С 2014 по 2017 год он занимал должность менеджера по исследованиям партнеров в области искусственного интеллекта. Он руководил разработкой решений ИИ для прогнозирования продаж и маркетинга. Он также занимался глубоким обучением для обработки текстов и изображений (см. учебные пособия ACL/SIGIR 2018, учебные пособия Deep Learning 2017 и учебные пособия IJCAI 2016, а также интранет-сайт Microsoft) и руководил разработкой систем ИИ для ведения диалога, машинного понимания прочитанного (MRC) и ответов на вопросы (QA). С 2022 года он возглавляет исследования в области самосовершенствующегося ИИ, который улучшает и адаптирует LLM (например, ChatGPT/GPT4) для разработки коммерческих систем ИИ.
благодарственная записка
Мы особенно благодарны Питеру Ли, Дагу Бургеру, Десни Тану, Йоханнесу Герке, Райену Уайту, Эче Камару, Субходжиту Сому и Кариму Чоудри за их советы, твердую поддержку и ободрение. Мы благодарим Хайяна Чжана, Спенсера Перро, Дэйва Бигнелла, Катю Хофманн, Сэма Девлина, Шанженга Тана, Ралуку Георгеску, Билла Долана, Небойшу Йоджича, Судху Рао, Адриану Брауну и Анджею Банбурски-Фейхи за содержательные ранние обсуждения и помощь в игре. Мы благодарим Кирана Мутабатуллу, Антонио Криминиси, Тома Кашмана, Нгуена Баха, Дженнифер Марсман и Джарона Ланье из команды Microsoft Mesh, Microsoft OCTO и Microsoft Office за их вклад в работу над Mixed Reality, работу над набором данных, а также за их щедрую помощь и вклад в этот проект. а также за их щедрую помощь и отзывы о проекте. Мы особенно благодарны Полу Беннетту, Корби Россе, Мишелю Галли, Ченглонг Вангу, Баолинь Пенгу, Хао Чену, Сильвиу Кучерзану, Ахмеду Авадаллаху и Салиме Амерши за их предложения и замечания по разделу НЛП. Комментарии к разделу НЛП. Авторы искренне благодарят Павла Смоленского, Йонатана Биска, Кежень Чена, Боруи Ванга, Лянке Гуй, Динмин Ванга, Синь (Эрика) Ванга, Чже Ганя, Сяоцзянь Ма, Зилун Чжэн, Сон Чунь Чжу, Драгомира Р. Ванга и Д. С. Ванга за их предложения и комментарии по разделу НЛП. Чжу, Драгомиру Р. Радеву, Дэниелу Макдаффу и Гарри Шаму за связанные с ними предыдущие работы, комментарии, предложения, кропотливую многократную проверку этой статьи и подсказки по литературе. Наконец, мы искренне благодарим команду Microsoft Holulens, команду Microsoft X-box и команду Meta Quest за щедрое предоставление устройств; команду MSR Central Engineering (CE), команду Microsoft 343 за сбор и обмен данными; а также команды Microsoft AOAI и GCR за поддержку конечной точки Azure-OpenAI.
Мы также хотели бы поблагодарить наших коллег из Стэнфордского партнерства по оказанию помощи с помощью искусственного интеллекта, которые помогли нам разобраться в медицинских приложениях, рассматриваемых в данной работе. Мы особенно благодарны Эхсану Адели, Полу Тангу, Амиту Каушалу, Роджеру Бону, Кевину Шульману и Арнольду Мильштейну за их клинический опыт и рекомендации.
Это исследование было проведено при поддержке Microsoft Research Project Fair 2023, Microsoft HackBox 2023 и команды OCTO.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...




