에이전트 AI: 멀티모달 인터랙션의 최전선 세계 탐험하기 [페이 페이 리 - 클래식 필독서]

AI 기술 자료8개월 전 업데이트 AI 공유 서클
16.7K 00

에이전트 AI: 멀티모달 인터랙션의 지평을 넓히다.

원본: https://ar5iv.labs.arxiv.org/html/2401.03568

 

초록

멀티모달 AI 시스템은 일상 생활에 보편화될 가능성이 높습니다. 이러한 시스템을 더욱 인터랙티브하게 만드는 한 가지 유망한 접근 방식은 물리적 환경과 가상 환경에서 지능으로 구현하는 것입니다. 현재 시스템은 구현된 인텔리전스를 만들기 위한 기본 구성 요소로 기존의 기본 모델을 활용하고 있습니다. 이러한 환경에 인텔리전스를 구현하면 시각 및 컨텍스트 데이터를 처리하고 해석하는 모델의 능력에 기여하며, 이는 보다 복잡하고 컨텍스트를 인식하는 AI 시스템을 만드는 데 매우 중요합니다. 예를 들어, 사용자 행동, 인간 행동, 환경 사물, 오디오 표현, 장면의 집단적 감정을 감지할 수 있는 시스템은 주어진 환경에서 지능적인 신체가 반응하도록 정보를 제공하고 안내하는 데 사용될 수 있습니다. 다중 모드 지능에 기반한 지능 연구를 가속화하기 위해 유니티는 시각적 자극, 언어 입력 및 기타 환경 기반 데이터를 인식하고 의미 있는 구현된 행동을 생성할 수 있는 상호작용 시스템 클래스를 '에이전트 AI'로 정의합니다. 특히 외부 지식, 다감각적 입력, 인간의 피드백을 통합하여 다음에 구현될 행동을 기반으로 지능을 예측하는 시스템을 탐구합니다. 또한 대규모 기본 모델에 대한 착각과 환경적으로 잘못된 결과물을 생성하는 경향은 지상 환경에서 지능형 신체 AI 시스템을 개발함으로써 완화될 수 있다고 주장합니다. 새롭게 떠오르는 '에이전트 AI' 분야는 다중 모드 상호 작용의 보다 광범위하게 구현되고 지능적인 신체 측면을 다룹니다. 물리적 세계에서 행동하고 상호 작용하는 지능뿐만 아니라 사람들이 가상 현실 또는 시뮬레이션 시나리오를 쉽게 만들고 가상 환경에 내장된 지능과 상호 작용할 수 있는 미래를 상상합니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 1: 다양한 영역과 애플리케이션에서 감지하고 행동할 수 있는 에이전트 AI 시스템의 개요.에이전트 AI는 일반 인공 지능(AGI)으로 가는 유망한 경로로 부상하고 있으며, 에이전트 AI 학습은 물리적 세계에서 다중 모드 이해를 수행할 수 있는 능력을 입증했습니다. 이는 제너레이티브 AI와 여러 독립 데이터 소스를 활용하여 현실과 무관한 훈련을 위한 프레임워크를 제공합니다. 교차 현실 데이터로 훈련하면 지능 및 행동 관련 작업에 대해 훈련된 대규모 기본 모델을 실제 세계와 가상 세계 모두에 적용할 수 있습니다. 다양한 영역과 애플리케이션에서 인지하고 행동할 수 있는 에이전트 AI 시스템에 대한 일반적인 개요를 보여드리며, 잠재적으로 지능형 신체 패러다임을 사용하여 AGI로 가는 통로 역할을 할 수 있습니다.

디렉토리(컴퓨터 하드 드라이브에 있음)

  1. 소개
    1. 1.1 기관차
    2. 1.2 컨텍스트
    3. 1.3 개요
  2. 상담원 AI 통합
    1. 2.1 무한한 AI 인텔리전스
    2. 2.2 대규모 기본 모델을 사용하는 상담원 AI
      1. 2.2.1 상상의 산물
      2. 2.2.2 편견과 포용성
      3. 2.2.3 데이터 개인정보 보호 및 사용
      4. 2.2.4 해석 가능성 및 설명력
      5. 2.2.5 추론 향상
      6. 2.2.6 감독
    3. 2.3 긴급 기능을 위한 에이전트 AI
  3. 에이전트 AI 패러다임
    1. 3.1 대규모 언어 모델 및 시각적 언어 모델
    2. 3.2 인텔리전트 바디 트랜스포머 정의
    3. 3.3 지능형 바디 트랜스포머 생성
  4. 에이전트 AI 학습
    1. 4.1 전략 및 메커니즘
      1. 4.1.1 강화 학습(RL)
      2. 4.1.2 모방 학습(IL)
      3. 4.1.3 기존 RGB
      4. 4.1.4 상황 학습
      5. 4.1.5 지능형 신체 시스템 최적화
    2. 4.2 지능형 신체 시스템(샘플 수준 0 및 소수)
      1. 4.2.1 지능형 바디 모듈
      2. 4.2.2 지능형 신체 인프라
    3. 4.3 지능형 신체 기본 모델(사전 훈련 및 미세 조정 수준)
  5. 상담원 AI 분류
    1. 5.1 일반 인텔리전스 도메인
    2. 5.2 구현된 인텔리전스
      1. 5.2.1 모바일 인텔리전스
      2. 5.2.2 상호 작용하는 인텔리전스
    3. 5.3 시뮬레이션 및 환경 인텔리전스
    4. 5.4 생성 지능
      1. 5.4.1 AR/VR/혼합 현실 인텔리전트 바디
    5. 5.5 지적 및 논리적 추론 지능
      1. 5.5.1 인텔리전스 유닛(KIU)
      2. 5.5.2 논리적 지능
      3. 5.5.3 감성적 추론을 위한 인텔리전스
      4. 5.5.4 신경 상징 지능 단위(NSI)
    6. 5.6 대규모 언어 모델링 및 시각 언어 모델링 인텔리전스
  6. 상담원 AI 애플리케이션 작업
    1. 6.1 게임을 위한 인텔리전트 바디
      1. 6.1.1 NPC 행동
      2. 6.1.2 인간-NPC 상호작용
      3. 6.1.3 지능형 신체 기반 게임 분석
      4. 6.1.4 게임 장면 합성의 경우
      5. 6.1.5 실험 및 결과
    2. 6.2 로봇 공학
      1. 6.2.1 로보틱스를 위한 대규모 언어 모델/시각 언어 모델 인텔리전스.
      2. 6.2.2 실험 및 결과.
    3. 6.3 건강 관리
      1. 6.3.1 현재 의료 서비스 용량
    4. 6.4 멀티모달 인텔리전스
      1. 6.4.1 이미지 언어 이해 및 생성
      2. 6.4.2 비디오 및 언어 이해 및 생성
      3. 6.4.3 실험 및 결과
    5. 6.5 비디오 - 언어 실험
    6. 6.6 자연어 처리를 위한 인텔리전스
      1. 6.6.1 빅 언어 모델링 인텔리전스
      2. 6.6.2 범용 대규모 언어 모델링 인텔리전스(ULM)
      3. 6.6.3 명령 추종형 대규모 언어 모델 인텔리전스
      4. 6.6.4 실험 및 결과
  7. 양식, 도메인 및 현실을 아우르는 에이전트 AI
    1. 7.1 모달 간 이해를 위한 인텔리전스
    2. 7.2 도메인 간 이해를 위한 인텔리전스
    3. 7.3 크로스 모달 및 크로스 리얼리티를 위한 인터랙티브 인텔리전스
    4. 7.4 시뮬레이션에서 현실로의 마이그레이션
  8. 에이전트 AI의 지속적이고 지속적인 자기 개선
    1. 8.1 인간 상호작용에 기반한 데이터
    2. 8.2 기본 모델에서 생성된 데이터
  9. 스마트바디 데이터 세트 및 리더보드
    1. 9.1 다중 지능 게임을 위한 'CuisineWorld' 데이터 세트
      1. 9.1.1 참조 표준
      2. 9.1.2 명령
      3. 9.1.3 지표 및 판단
      4. 9.1.4 가치 평가
    2. 9.2 오디오-비디오-언어 사전 교육 데이터 세트.
  10. 10 광범위한 영향 성명서
  11. 11 윤리적 고려 사항
  12. 12 다양성 선언문
  13. GPT-4V 지능형 신체 경보 세부 정보
  14. 블리딩 엣지용 GPT-4V
  15. 마이크로소프트 플라이트 시뮬레이터용 GPT-4V
  16. 어쌔신 크리드 오디세이용 GPT-4V
  17. 기어스 오브 워 4용 GPT-4V
  18. 스타필드용 GPT-4V

 

1 소개

1.1 동기 부여

역사적으로 AI 시스템은 1956년 다트머스 컨퍼런스에서 환경으로부터 정보를 수집하고 유용한 방식으로 상호 작용할 수 있는 '인공 생명체'로 정의되었습니다. 이 정의에서 영감을 얻은 MIT의 민스키 그룹은 1970년 '복제 데모'라는 로봇 시스템을 구축하여 '블록 세계' 시나리오를 관찰하고 관찰된 다면체 블록 구조를 성공적으로 재구성했습니다. 이 시스템에는 관찰, 계획, 조작 모듈이 포함되어 있었는데, 각각의 하위 문제가 까다롭고 추가 연구가 필요하다는 사실이 밝혀졌습니다. AI 분야는 이러한 문제와 다른 문제를 해결하는 데 큰 진전을 이룬 전문화된 하위 분야로 세분화되어 있지만 지나치게 단순화하면 AI 연구의 전반적인 목표가 모호해집니다.

현 상황을 넘어서기 위해서는 아리스토텔레스적 전체론에 기반한 AI의 기초로 돌아갈 필요가 있습니다. 다행히 최근 대규모 언어 모델(LLM/Large Language Model)과 시각 언어 모델(VLM/Visual Language Model)의 혁명으로 인해 전체론적 이상에 부합하는 새로운 유형의 AI 지능을 만들 수 있게 되었습니다. 이 백서에서는 이러한 기회를 포착하여 언어 능력, 시각적 인지, 문맥 기억, 직관적 추론 및 적응력을 통합하는 모델을 살펴봅니다. 그리고 이러한 총체적인 종합을 달성하기 위해 대규모 언어 모델과 시각 언어 모델을 사용할 수 있는 잠재력을 탐구합니다. 또한, 기존 AI 개발에서 간과되었던 아리스토텔레스의 '목적론적 원인', 즉 목적론적 '시스템의 존재 이유'에 기반한 시스템 설계를 재검토합니다.

자연어 처리와 컴퓨터 비전의 르네상스는 사전 학습된 강력한 빅 언어 모델과 시각 언어 모델의 등장으로 촉발되었습니다. 빅 언어 모델은 이제 실제 언어 데이터의 뉘앙스를 해독하는 놀라운 능력을 보여주며, 종종 인간의 전문 지식인 OpenAI(2023년)와 일치하거나 심지어 이를 능가하기도 합니다. 최근 연구자들은 빅 언어 모델을 다음과 같이 다양한 환경에서 작동하도록 확장할 수 있음을 보여주었습니다.지능형 신체도메인별 지식 및 모듈과 결합하여 복잡한 행동과 작업을 수행하는 시나리오 Xi 외. (2023). 이러한 시나리오는 복잡한 추론, 지능의 역할과 환경에 대한 이해, 다단계 계획이 특징이며, 환경의 제약 내에서 매우 미묘하고 복잡한 결정을 내리는 지능의 능력을 테스트합니다 Wu 외(2023); 메타 기초 인공지능 연구 외교팀 외(2022) Meta. 기초 인공지능 연구 외교팀, 바흐친, 브라운, 디난, 파리나, 플라허티, 프리드, 고프, 그레이, 후 외(FAIR).

이러한 초기 노력을 바탕으로 AI 커뮤니티는 수동적이고 구조화된 작업에 사용하기 위한 AI 모델을 만드는 것에서 벗어나 다양하고 복잡한 환경에서 역동적이고 지능적인 역할을 수행할 수 있는 모델로 패러다임의 전환을 맞이하고 있습니다. 이러한 배경에서 이 백서에서는 언어적 능력, 시각적 인지, 문맥 기억, 직관적 추론 및 적응력을 결합한 모델을 강조하면서 대규모 언어 모델과 시각 언어 모델을 지능으로 사용할 수 있는 큰 잠재력에 대해 살펴봅니다. 특히 게임, 로봇 공학, 헬스케어 등의 분야에서 대규모 언어 모델과 시각 언어 모델을 지성체로 사용하는 것은 최첨단 AI 시스템을 평가하기 위한 엄격한 플랫폼을 제공할 뿐만 아니라 지성체 중심의 AI가 사회와 산업에 미칠 혁신적인 영향을 예고합니다. 지능형 신체 모델이 완전히 활용되면 인간의 경험을 재정의하고 운영 표준을 높일 수 있습니다. 이러한 모델을 통한 완전 자동화의 잠재력은 산업과 사회경제적 역학 관계의 극적인 변화를 예고합니다. 이러한 발전은 11장에서 자세히 설명하겠지만 기술적인 측면뿐만 아니라 윤리적인 측면에서도 다각적인 리더보드와 얽혀 있을 것입니다. 그림 1에서는 지능형 신체 AI의 이러한 하위 분야가 서로 겹치는 영역을 살펴보고 상호 연결성을 설명합니다.

1.2 배경

이제 지능형 신체용 인공 지능의 개념, 이론적 배경 및 최신 구현을 뒷받침하는 관련 연구 논문을 소개합니다.

대규모 기본 모델.

대규모 언어 모델과 시각 언어 모델은 범용 지능형 기계를 개발하려는 노력을 주도해 왔습니다(Bubeck 외., 2023; Mirchandani 외., 2023). 대규모 텍스트 코퍼스를 사용하여 학습되지만, 이들의 뛰어난 문제 해결 능력은 표준 언어 처리 영역에만 국한되지 않습니다. 대규모 언어 모델은 수학적 추론(Imani 외, 2023; Wei 외, 2022; Zhu 외, 2022)에서부터 전문적인 법률 질문에 대한 답변(Blair-Stanek 외, 2023; Choi 외, 2023; Nay, 2022)에 이르기까지 인간 전문가나 도메인별 알고리즘의 전유물로 여겨졌던 복잡한 작업을 처리할 수 있는 잠재력을 가지고 있습니다. 2023; Nay, 2022). 최근 연구에 따르면 대규모 언어 모델을 사용하여 로봇 및 게임 AI를 위한 복잡한 계획을 생성할 수 있는 것으로 나타났는데(Liang et al., 2022; Wang et al., 2023a, b; Yao et al., 2023a; Huang et al., 2023a), 이는 범용 지능으로서 대규모 언어 모델을 사용하는 데 중요한 이정표가 될 것으로 보입니다.

구현된 AI.

일부 연구에서는 작업 계획을 수행하기 위해 대규모 언어 모델, 특히 복잡한 작업 계획 및 추론을 수행하기 위한 대규모 언어 모델의 월드와이드웹 규모의 도메인 지식과 새로운 제로 샘플 구현 기능을 활용했습니다(Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a). 최근의 로봇 연구에서도 대규모 언어 모델을 활용하여 자연어 명령을 일련의 하위 작업(자연어 형식 또는 Python 코드 형식)으로 분해한 다음 저수준 컨트롤러를 사용하여 실행함으로써 작업 계획을 수행합니다(Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022). 또한, 환경 피드백을 통합하여 작업 성능을 개선합니다(Huang et al., 2022b), (Liang et al., 2022), (Wang et al., 2023a), (Ikeuchi et al., 2023).

대화형 학습:

대화형 학습을 위해 설계된 AI 인텔리전스는 머신러닝 기술과 사용자 상호작용의 조합을 사용하여 작동합니다. 처음에 AI 인텔리전스는 대규모 데이터 세트에서 학습됩니다. 이 데이터 세트에는 지능의 의도된 기능에 따라 다양한 유형의 정보가 포함됩니다. 예를 들어, 언어 작업을 위해 설계된 AI는 대규모 텍스트 데이터 코퍼스를 학습하게 됩니다. 학습에는 딥러닝 모델(예: 신경망)을 포함하는 머신러닝 알고리즘이 사용됩니다. 이러한 학습 모델을 통해 AI는 패턴을 인식하고, 예측을 하고, 학습된 데이터를 기반으로 응답을 생성할 수 있습니다. 또한 AI는 사용자와의 실시간 상호작용을 통해 학습할 수도 있습니다. 1) 피드백 기반 학습: AI는 사용자의 직접적인 피드백을 기반으로 응답을 조정합니다. Li 외(2023b), Yu 외(2023a), Parakh 외(2023), Zha 외(2023), Wake 외(2023a, b, c) 등 여러 가지 방식으로 대화형 학습이 이루어질 수 있습니다. 예를 들어, 사용자가 AI의 응답을 수정하면 AI는 이 정보를 사용하여 향후 응답을 개선할 수 있습니다 Zha 외(2023); Liu 외(2023a). 2) 관찰 학습: AI는 사용자 상호작용을 관찰하고 암묵적으로 학습합니다. 예를 들어, 사용자가 비슷한 질문을 자주 하거나 특정 방식으로 AI와 상호작용하는 경우 AI는 이러한 패턴에 더 잘 맞도록 응답을 조정할 수 있습니다. 이를 통해 AI 인텔리전스는 인간의 언어, 다중 모드 설정을 이해하고 처리하며, 교차 현실 상황을 해석하고, 인간 사용자의 응답을 생성할 수 있습니다. 시간이 지남에 따라 AI 인텔리전스의 성능은 일반적으로 더 많은 사용자 상호 작용과 피드백을 통해 계속 향상됩니다. 이 프로세스는 일반적으로 AI가 적절하게 학습하고 편견이나 잘못된 패턴을 개발하지 않는지 확인하는 인간 운영자 또는 개발자가 감독합니다.

1.3 개요

멀티모달 에이전트 AI(MAA/멀티모달 에이전트 AI)는 멀티모달 감각 입력에 대한 이해를 바탕으로 주어진 환경에서 효과적인 동작을 생성하는 일련의 시스템입니다. 대규모 언어 모델(LLM/대규모 언어 모델)과 시각 언어 모델(VLM/시각 언어 모델)의 등장으로 기초 연구부터 응용 분야에 이르기까지 다양한 분야에서 여러 가지 멀티모달 에이전트 AI 시스템이 제안되었습니다. 이러한 연구 분야는 각 영역의 전통적인 기술(예: 시각적 질문 및 시각 언어 탐색)과의 통합을 통해 빠르게 발전하고 있지만 데이터 수집, 벤치마킹 및 윤리적 관점과 같은 공통 관심사를 공유합니다. 이 백서에서는 멀티모달 인텔리전스를 위한 AI의 대표적인 연구 분야인 멀티모달, 게임(VR/AR/MR), 로보틱스, 헬스케어에 초점을 맞추어 이들 분야에서 논의되는 공통 관심사에 대한 포괄적인 지식을 제공하는 것이 목표입니다. 따라서 멀티모달 인텔리전스를 위한 AI의 기초를 배우고 연구를 더욱 발전시킬 수 있는 인사이트를 얻고자 합니다. 구체적인 학습 성과는 다음과 같습니다:

  • 복합 지능을 위한 인공 지능 개요: 현대 애플리케이션에서 인공 지능의 원리와 역할을 심층적으로 살펴보고, 연구자들이 인공 지능의 중요성과 용도를 포괄적으로 파악할 수 있도록 합니다.
  • 방법론: 게임, 로봇 공학, 의료 분야의 사례 연구에서는 매크로 언어 모델과 시각 언어 모델이 다중 모드 지능의 인공 지능을 향상시키는 방법을 자세히 설명합니다.
  • 성능 평가: 관련 데이터 세트를 사용하여 다중 모드 지능 AI의 효과와 일반화 기능에 중점을 두고 평가하는 가이드입니다.
  • 윤리적 고려 사항: 책임감 있는 개발 관행을 강조하는 지능형 신체 AI 배포의 사회적 영향과 윤리적 순위에 대한 논의입니다.
  • 새로운 트렌드 및 미래 차트: 각 영역의 최신 동향을 분류하고 향후 방향에 대해 논의합니다.

컴퓨터 기반 액션과 제너럴리스트 지능(GA/Generalist Agent)은 많은 작업에 유용합니다. 제너럴리스트 지능형 바디가 사용자에게 진정한 가치를 제공하기 위해서는 자연스럽게 상호 작용할 수 있어야 하며 다양한 상황과 양식에 일반화할 수 있어야 합니다. 우리의 목표는 지능형 신체 AI 커뮤니티 내에서 활기찬 연구 생태계를 조성하고 정체성과 목적의식을 공유하는 것입니다. 다중 모드 지능형 신체 AI는 인간의 입력을 포함하여 다양한 상황과 양식에 적용될 수 있는 잠재력을 가지고 있습니다. 따라서 이 지능형 신체 AI 분야는 다양한 연구자들을 끌어들여 역동적인 지능형 신체 AI 커뮤니티와 공유된 목표를 육성할 수 있다고 믿습니다. 학계와 업계의 저명한 전문가들이 이끄는 이 백서는 스마트 바디 튜토리얼, 사례 연구, 과제 세션, 실험 토론을 포함하여 모든 연구자에게 포괄적이고 매력적인 학습 경험을 보장하는 대화형 및 풍부한 경험이 될 것으로 기대합니다.

이 백서의 목적은 지능을 위한 인공 지능 분야의 최신 연구에 대한 일반적이고 포괄적인 지식을 제공하는 것입니다. 이를 위해 백서의 나머지 부분은 다음과 같이 구성됩니다. 섹션 2에서는 지능형 신체 AI가 관련 신흥 기술, 특히 대규모 기본 모델과의 통합을 통해 어떤 이점을 얻을 수 있는지 간략하게 설명합니다. 섹션 3에서는 지능형 신체 AI 학습을 위해 제안하는 새로운 패러다임과 프레임워크에 대해 설명합니다. 섹션 4에서는 지능형 신체 AI를 훈련하는 데 널리 사용되는 방법에 대한 개요를 제공합니다. 섹션 5에서는 다양한 유형의 지능을 분류하고 논의합니다. 섹션 6에서는 게임, 로보틱스, 의료 분야에서 지능형 신체 AI의 적용 사례를 설명합니다. 섹션 7에서는 다양한 방식과 영역에 적용하고 시뮬레이션과 현실의 간극을 메울 수 있는 범용 지능형 신체 AI를 개발하기 위한 연구 커뮤니티의 노력을 살펴봅니다. 섹션 8에서는 사전 학습된 기본 모델에 의존할 뿐만 아니라 환경 및 사용자와의 상호 작용을 활용하여 지속적으로 학습하고 스스로 개선하는 지능형 신체 AI의 잠재력에 대해 설명합니다. 섹션 9에서는 멀티모달 지능형 신체 AI 학습을 위해 설계된 새로운 데이터 세트에 대해 설명합니다. 섹션 11에서는 최근 화제가 되고 있는 인공지능의 지능, 한계, 사회적 영향에 대한 윤리적 고려사항에 대해 논의합니다.

 

2 지능형 신체 인공 지능 통합

이전 연구에서 제시된 바와 같이, 거시 언어 모델과 시각 언어 모델에 기반한 기본 모델은 구현된 AI 분야, 특히 보이지 않는 환경이나 장면에서 이해, 생성, 편집 및 상호 작용하는 데 있어 여전히 제한된 성능을 보입니다(Huang et al. (2023a); Zeng et al. (2023)). 결과적으로 이러한 한계로 인해 AI 지능의 결과물이 최선이 아닌 차선책으로 이어집니다. 현재 지능 중심 AI 모델링에 대한 접근 방식은 직접 액세스할 수 있고 잘 정의된 데이터(예: 세계 상태에 대한 텍스트 또는 문자열 표현)에 초점을 맞추고, 일반적으로 대규모 사전 학습에서 학습한 도메인 및 환경 독립적 패턴을 사용하여 각 환경에 대한 작업 결과를 예측합니다. Xi 등(2023); Wang 등(2023c); Gong. 외. (2023a); Wu 외. (2023). (Huang et al., 2023a)에서는 대규모 기본 모델을 결합하여 지식 기반 협업 및 대화형 장면 생성 작업을 조사하고 대규모 언어 모델의 지식 기반 지능이 2D 및 3D 장면 이해, 생성 및 편집뿐만 아니라 기타 인간-컴퓨터 상호 작용의 성능을 향상시킬 수 있음을 시사하는 유망한 결과를 보여줍니다 Huang et al. (2023a). ). 지능형 신체 AI 프레임워크를 통합함으로써 대규모 기본 모델은 사용자 입력을 더 깊이 이해할 수 있어 복잡하고 적응적인 인간-컴퓨터 상호 작용 시스템을 구축할 수 있습니다. 대규모 언어 모델과 시각 언어 모델의 새로운 기능은 생성형 AI, 구현형 AI, 다중 모드 학습을 위한 지식 증강, 혼합 현실 생성, 텍스트-비전 편집, 게임 또는 로봇 작업의 2D/3D 시뮬레이션을 위한 인간과 컴퓨터의 상호작용에서 보이지 않는 역할을 합니다. 최근 지능형 신체 AI의 근본적인 모델링에 대한 발전은 구현된 지능의 일반 지능을 실현하는 데 촉매제가 될 것입니다. 대규모 행동 모델이나 시각적 언어 모델의 지능은 복잡한 환경에서의 계획, 문제 해결, 학습과 같은 일반적인 구현형 시스템에 대한 새로운 가능성을 열어줍니다. 지능형 구현형 AI는 메타 유니버스에서 한 단계 더 나아가 범용 AI의 초기 버전으로 나아갈 수 있는 길을 제시합니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 2: 현실 전반의 2D/3D 구현 생성 및 편집 인터랙션을 위한 멀티모달 스마트바디 AI.

2.1 무한한 인공지능 지능

인공지능은 학습과 입력 데이터를 기반으로 해석, 예측, 대응할 수 있는 능력을 갖추고 있습니다. 이러한 기능은 발전하고 개선되고 있지만, 그 한계와 학습된 기초 데이터의 영향을 인식하는 것이 중요합니다. 인공지능 시스템에는 일반적으로 다음과 같은 기능이 있습니다. 1) 예측 모델링: 인공지능은 과거 데이터와 추세를 기반으로 예상되는 결과를 예측하거나 후속 단계를 제안할 수 있습니다. 예를 들어, 텍스트의 연속, 질문에 대한 답변, 로봇의 다음 동작 또는 시나리오에 대한 해결책을 예측할 수 있습니다.2) 의사 결정: 일부 애플리케이션에서 AI 인텔리전스는 추론을 기반으로 의사 결정을 내릴 수 있습니다. 일반적으로 인공지능은 지정된 목표를 달성할 가능성이 가장 높은 것을 기반으로 의사 결정을 내립니다. 추천 시스템과 같은 AI 애플리케이션의 경우, 인공지능은 사용자 선호도에 대한 추론을 기반으로 추천할 제품이나 콘텐츠를 결정할 수 있습니다.3) 모호성 처리: 인공지능은 문맥과 학습을 기반으로 가장 가능성이 높은 해석을 추론하여 모호한 입력을 처리할 수 있는 경우가 많습니다. 그러나 이러한 능력은 학습 데이터와 알고리즘의 범위에 따라 제한됩니다.4) 지속적인 개선: 일부 인공지능은 새로운 데이터와 상호 작용을 통해 학습할 수 있지만, 많은 대규모 언어 모델은 학습 후 지식 기반이나 내부 표현을 지속적으로 업데이트하지 않습니다. 이러한 추론은 일반적으로 마지막 학습 업데이트 시점에 사용 가능한 데이터만을 기반으로 합니다.

그림 2에서는 다중 모드 및 교차 현실에 구애받지 않는 통합을 위한 증강 대화형 인텔리전스를 새로운 메커니즘과 함께 보여줍니다. 인공지능 지능을 구현하려면 새로운 작업을 수행할 때마다 대량의 학습 데이터를 수집해야 하는데, 이는 많은 도메인에서 비용이 많이 들거나 불가능할 수 있습니다. 이 연구에서는 물리적 또는 가상 세계에서 시나리오 이해, 생성 및 대화형 편집을 위해 범용 기본 모델(예: GPT-X, DALL-E)에서 새로운 도메인 또는 시나리오로 인메모리 정보를 전송하는 방법을 학습하는 무한 지능체를 개발합니다.

이러한 무한 지능을 로봇 공학에 적용한 사례 중 하나가 RoboGen Wang 등(2023d)입니다. 이 연구에서 저자들은 작업 제안, 환경 생성, 기술 학습 주기를 자율적으로 실행하기 위한 파이프라인을 제시합니다. RoboGen은 대규모 모델에 내장된 지식을 로봇 공학으로 이전하기 위한 노력입니다.

2.2 대규모 기본 모델을 갖춘 인텔리전스를 위한 인공 지능

최근 연구에 따르면 대규모 기본 모델은 환경에 의해 부과된 제약 조건 내에서 지능형 물체의 동작을 결정하기 위한 벤치마크 역할을 하는 데이터를 생성하는 데 중요한 역할을 하는 것으로 나타났습니다. 예를 들어 로봇 조작에 대한 기본 모델 사용(Black et al. (2023), Ko et al. (2023), 내비게이션 Shah et al. (2023a), Zhou et al. (2023a))을 들 수 있습니다. 예를 들어, Black 등은 이미지 편집 모델을 상위 계획으로 사용하여 저수준 전략을 안내하기 위한 미래 하위 목표의 이미지를 생성합니다 Black 등(2023). 로봇 내비게이션의 경우, Shah 등은 텍스트에서 랜드마크를 인식하는 매크로 언어 모델과 이러한 랜드마크를 시각적 입력과 연관시켜 자연어 명령을 통해 내비게이션을 향상시키는 시각 언어 모델을 사용하는 시스템을 제안합니다(Shah 등, 2023a).

언어 및 환경적 요인에 맞춘 조건부 인간 움직임을 생성하는 것에 대한 관심도 높아지고 있습니다. 특정 언어 명령에 맞춤화된 움직임과 동작을 생성하고 다양한 3D 장면에 적응하는 여러 AI 시스템이 제안되었습니다(Kim 등(2023), Zhang 등(2022), Tevet 등(2022), Wang 등(2022a)). 이 연구는 다양한 시나리오에서 AI 지능의 적응성과 반응성을 향상시키는 데 있어 생성 모델의 역량이 커지고 있음을 강조합니다.

2.2.1 환각

텍스트를 생성하는 지능은 종종 환각, 즉 생성된 텍스트가 의미가 없거나 제공된 소스 콘텐츠와 일치하지 않는 상황에 빠지기 쉽습니다. Raunak 외. (2021); Maynez 외. (2020). 착각은 두 가지 범주로 나눌 수 있습니다.내면의 환상노래로 응답외부 착시 Ji et al. (2023). 내재적 착각은 원본 자료와 모순되는 착각을 말하며, 외재적 착각은 생성된 텍스트에 원본 자료에 포함되지 않은 추가 정보가 포함된 경우를 말합니다.

언어 생성에서 착각의 비율을 줄이기 위한 몇 가지 유망한 방법으로는 검색을 사용하여 생성을 향상시키는 방법(Lewis 등, 2020), 외부 지식 검색을 통해 자연어 출력을 지원하는 기타 접근 방식(Dziri 등, 2021), Peng 등, 2023) 등이 있습니다. 일반적으로 이러한 접근 방식은 다른 소스 자료를 검색하고 생성된 응답과 소스 자료 간의 모순을 확인하는 메커니즘을 제공함으로써 언어 생성을 향상시키는 것을 목표로 합니다.

다중 모드 지능형 신체 시스템의 맥락에서 시각 언어 모델도 환각을 일으키는 것으로 나타났습니다(Zhou 등, 2023b). 시각 기반 언어 생성에서 환각이 발생하는 일반적인 원인은 학습 데이터에서 사물과 시각적 단서의 동시 발생에 과도하게 의존하기 때문입니다(Rohrbach 등. (2018)). 사전 학습된 거시 언어 또는 시각 언어 모델에만 의존하고 제한된 맥락별 미세 조정을 사용하는 인공지능은 특히 사전 학습된 모델의 내부 지식 기반에 의존하여 행동을 생성하고 해당 모델이 배치된 세계 상태의 역학을 정확하게 이해하지 못할 수 있기 때문에 환각에 취약할 수 있습니다.

2.2.2 편견과 포용성

대규모 언어 모델(LLM) 또는 대규모 다중 모드 모델(LMM)에 기반한 AI 지능은 설계 및 학습 과정에 내재된 여러 요인으로 인해 편향성을 띕니다. 이러한 AI 지능을 설계할 때는 포용성을 염두에 두고 모든 최종 사용자와 이해관계자의 요구를 인식해야 합니다. AI 인텔리전스의 맥락에서는비독점성 은 다양한 배경을 가진 광범위한 사용자들을 포용하고 존중하며 민감하게 반응하고 상호작용하기 위해 채택한 조치와 원칙을 말합니다. 아래에서 지능형 편견 및 포용성의 주요 측면을 설명합니다.

  • 학습 데이터기본 모델은 책, 기사, 웹사이트, 기타 텍스트 소스 등 인터넷에서 수집한 대량의 텍스트 데이터로 학습됩니다. 이러한 데이터는 종종 인간 사회에 존재하는 편견을 반영하며, 모델이 무심코 학습하고 재생산할 수 있습니다. 여기에는 인종, 성별, 민족, 종교 및 기타 개인적 특성과 관련된 고정관념, 편견, 편향된 견해가 포함됩니다. 특히 인터넷 데이터로 훈련하고 종종 영어 텍스트만 사용하여 훈련함으로써 모델은 인터넷에서 불균형적으로 존재하는 서구, 교육, 산업화, 부자 및 민주주의(WEIRD) 사회의 문화적 규범을 암묵적으로 학습합니다(Henrich et al. ( 2010 ). 그러나 인간이 만든 데이터 세트는 원래 데이터를 생성 및/또는 수집한 개인의 편견뿐만 아니라 사회적 편견도 반영하는 경우가 많기 때문에 편견으로부터 완전히 자유로울 수 없다는 점을 인식하는 것이 중요합니다.
  • 역사 및 문화적 편견AI 모델은 다양한 콘텐츠의 대규모 데이터 세트를 학습합니다. 따라서 학습 데이터에는 종종 다른 문화의 역사적 텍스트나 자료가 포함됩니다. 특히, 역사적 출처의 학습 데이터에는 특정 사회의 문화적 규범, 태도, 편견을 나타내는 모욕적이거나 경멸적인 언어가 포함될 수 있습니다. 이로 인해 낡은 고정관념을 고착화하거나 현대의 문화적 변화와 뉘앙스를 완전히 이해하지 못하는 모델이 나올 수 있습니다.
  • 언어 및 컨텍스트 제약언어 모델은 아이러니, 유머 또는 문화적 암시와 같은 언어의 뉘앙스를 이해하고 정확하게 표현하는 데 어려움을 겪을 수 있습니다. 이로 인해 경우에 따라 오해나 편향된 응답이 발생할 수 있습니다. 또한 음성 언어의 많은 측면은 텍스트 전용 데이터로는 포착되지 않기 때문에 사람이 언어를 이해하는 방식과 모델이 이해하는 방식 사이에 잠재적인 단절이 발생할 수 있습니다.
  • 정책 및 가이드라인인공지능은 공정성과 포용성을 보장하기 위해 엄격한 정책과 가이드라인에 따라 운영됩니다. 예를 들어 이미지를 생성할 때 인종, 성별 및 기타 속성과 관련된 고정관념을 피하고 캐릭터 묘사를 다양화하기 위한 규칙이 있습니다.
  • 과잉 일반화이러한 모델은 학습 데이터에서 보이는 패턴을 기반으로 응답을 생성하는 경향이 있습니다. 이는 지나친 일반화로 이어질 수 있으며 모델은 특정 그룹을 고정 관념화하거나 광범위한 가정을 하는 것처럼 보이는 응답을 생성할 수 있습니다.
  • 지속적인 모니터링 및 업데이트편견이나 포용성에 관한 새로운 문제를 해결하기 위해 AI 시스템을 지속적으로 모니터링하고 업데이트합니다. 이 과정에서 사용자의 피드백과 AI 윤리에 대한 지속적인 연구가 중요한 역할을 합니다.
  • 주류 관점 확대학습 데이터에는 일반적으로 지배적인 문화나 집단의 콘텐츠가 더 많이 포함되므로 모델이 이러한 견해에 더 편향되어 소수 집단의 견해를 과소평가하거나 왜곡할 수 있습니다.
  • 윤리적이고 포용적인 디자인AI 도구는 윤리적 고려와 포용성을 핵심 원칙으로 삼아 설계되어야 합니다. 여기에는 문화적 차이를 존중하고 다양성을 장려하며 AI가 해로운 고정관념을 고착화하지 않도록 하는 것이 포함됩니다.
  • 사용자 가이드포용성과 존중을 증진하는 방식으로 AI와 상호 작용하는 방법에 대한 지침도 제공됩니다. 여기에는 편향되거나 부적절한 결과를 초래할 수 있는 요청을 피하는 것이 포함됩니다. 또한 모델이 사용자 상호 작용에서 유해한 자료를 학습하는 상황을 완화하는 데 도움이 될 수 있습니다.

이러한 조치에도 불구하고 AI 지능의 편견은 여전히 존재합니다. AI 연구 및 개발의 지속적인 노력은 이러한 편견을 더욱 줄이고 AI 시스템의 포용성과 공정성을 향상시키는 데 초점을 맞추고 있습니다. 편견 감소 노력:

  • 다양하고 포괄적인 교육 데이터교육 데이터에 보다 다양하고 포괄적인 소스를 포함하기 위한 노력을 기울이고 있습니다.
  • 편향성 감지 및 보정현재 진행 중인 연구는 모델 응답의 편향성을 감지하고 수정하는 데 중점을 두고 있습니다.
  • 윤리 가이드라인 및 정책모델들은 편견을 완화하고 존중과 포용의 상호작용을 보장하기 위해 고안된 윤리 가이드라인과 정책에 구속되는 경우가 많습니다.
  • 다양한 표현인공지능이 생성하거나 제공하는 콘텐츠가 다양한 인간의 경험, 문화, 민족, 정체성을 대표할 수 있도록 합니다. 이는 이미지 생성이나 내러티브 구성과 같은 시나리오에서 특히 중요합니다.
  • 편향성 완화AI 응답의 편견을 줄이기 위해 적극적으로 노력하고 있습니다. 여기에는 인종, 성별, 나이, 장애, 성적 지향 및 기타 개인적 특성과 관련된 편견이 포함됩니다. 목표는 고정관념이나 편견을 고착화하는 것이 아니라 공정하고 균형 잡힌 응답을 제공하는 것입니다.
  • 문화적 감수성AI의 디자인은 문화적으로 민감하며 문화적 규범, 관행 및 가치의 다양성을 인식하고 존중합니다. 여기에는 문화적 참조와 뉘앙스를 이해하고 적절하게 대응하는 것이 포함됩니다.
  • 접근성장애인을 포함하여 다양한 능력을 가진 사용자가 AI 지능에 액세스할 수 있도록 합니다. 여기에는 시각, 청각, 운동 또는 인지 장애가 있는 사람들이 더 쉽게 상호 작용할 수 있는 기능을 통합하는 것이 포함될 수 있습니다.
  • 언어 기반 포용성글로벌 사용자층을 위해 여러 언어와 방언을 지원하고 언어 내적 뉘앙스와 변형에 민감해야 합니다 Liu 등. ( 2023b ).
  • 윤리적이고 존중하는 상호 작용지능은 모든 사용자와 윤리적이고 정중하게 상호 작용하도록 프로그래밍되어 모욕적이거나 유해하거나 무례한 것으로 간주될 수 있는 응답을 피합니다.
  • 사용자 피드백 및 적응사용자 피드백을 통합하여 AI 지능의 포용성과 효율성을 지속적으로 개선합니다. 여기에는 다양한 사용자층을 더 잘 이해하고 서비스를 제공하기 위한 상호작용을 통한 학습이 포함됩니다.
  • 포용적 가이드라인 준수업계 그룹, 윤리 위원회 또는 규제 기관에서 설정하는 AI 지능의 포용성에 대한 확립된 지침 및 표준을 준수합니다.

이러한 노력에도 불구하고 응답의 편향 가능성을 인식하고 이를 해석할 때 비판적으로 사고하는 것이 중요하며, AI 지능 기술과 윤리적 관행의 지속적인 개선은 시간이 지남에 따라 이러한 편향성을 줄이는 것을 목표로 합니다. 지능형 기관 AI 포용성의 가장 중요한 목표 중 하나는 배경이나 정체성에 관계없이 모든 사용자가 존중하고 접근할 수 있는 지능형 기관을 만드는 것입니다.

2.2.3 데이터 개인정보 보호 및 사용

인공지능의 핵심적인 윤리적 고려 사항은 이러한 시스템이 사용자 데이터를 처리, 저장 및 잠재적으로 검색하는 방법을 이해하는 것입니다. 아래에서 주요 측면에 대해 설명합니다:

데이터 수집, 사용 및 목적.

모델 성능을 개선하기 위해 사용자 데이터를 사용할 때 모델 개발자는 프로덕션 환경과 사용자와 상호 작용할 때 AI 인텔리전스가 수집한 데이터에 액세스할 수 있습니다. 일부 시스템에서는 사용자가 사용자 계정을 통해 또는 서비스 제공업체에 요청을 보내 자신의 데이터를 볼 수 있도록 허용합니다. 이러한 상호 작용 중에 AI 인텔리전스가 어떤 데이터를 수집하는지 파악하는 것이 중요합니다. 여기에는 텍스트 입력, 사용자 사용 패턴, 개인 취향, 때로는 더 민감한 개인 정보가 포함될 수 있습니다. 또한 사용자는 자신의 상호 작용에서 수집된 데이터가 어떻게 사용되는지 이해해야 합니다. 어떤 이유로 인공지능이 특정 개인이나 그룹에 대한 잘못된 정보를 보유하고 있는 경우, 사용자가 오류를 인지한 후 이를 수정할 수 있는 메커니즘이 있어야 합니다. 이는 모든 사용자와 그룹에 대한 정확성과 존중을 위해 중요합니다. 사용자 데이터를 검색하고 분석하는 일반적인 용도로는 사용자 상호작용 개선, 응답 개인화, 시스템 최적화 등이 있습니다. 개발자는 사용자가 동의하지 않은 목적(예: 원치 않는 마케팅)으로 데이터가 사용되지 않도록 하는 것이 중요합니다.

저장 및 보안.

개발자는 사용자 상호작용 데이터가 저장되는 위치와 무단 액세스 또는 공개로부터 데이터를 보호하기 위한 보안 조치를 알고 있어야 합니다. 여기에는 암호화, 보안 서버, 데이터 보호 프로토콜 등이 포함됩니다. 스마트 신체 데이터를 제3자와 공유할지 여부와 어떤 조건으로 공유할지 결정하는 것이 중요합니다. 이는 투명해야 하며 일반적으로 사용자의 동의가 필요합니다.

데이터 삭제 및 보존.

사용자 데이터의 저장 기간과 사용자가 데이터 삭제를 요청할 수 있는 방법을 이해하는 것도 중요합니다. 많은 데이터 보호법은 사용자에게 잊혀질 권리를 부여하며, 이는 사용자가 자신의 데이터 삭제를 요청할 수 있음을 의미합니다.AI 인텔리전시아는 EU의 GDPR 또는 캘리포니아의 CCPA와 같은 데이터 보호법을 준수해야 합니다. 이러한 법률은 데이터 처리 관행과 사용자의 개인 데이터에 대한 권리를 규율합니다.

데이터 이동성 및 개인정보 보호정책.

또한 개발자는 AI 인텔리전스를 위한 개인정보 처리방침을 작성하여 사용자의 데이터가 어떻게 처리되는지 문서화하고 사용자에게 설명해야 합니다. 여기에는 데이터 수집, 사용, 저장 및 사용자 권한에 대해 자세히 설명해야 합니다. 개발자는 데이터 수집, 특히 민감한 정보에 대해서는 반드시 사용자의 동의를 얻어야 합니다. 사용자는 일반적으로 자신이 제공하는 데이터를 옵트아웃하거나 제한할 수 있습니다. 일부 관할권에서는 사용자가 자신의 데이터 사본을 다른 서비스 제공업체로 전송할 수 있는 형식으로 요청할 수 있는 권리도 있습니다.

익명화.

광범위한 분석이나 AI 학습에 사용되는 데이터의 경우, 개인의 신원을 보호하기 위해 익명으로 처리하는 것이 이상적입니다. 개발자는 AI 인텔리전스가 상호 작용 중에 과거 사용자 데이터를 검색하고 사용하는 방법을 이해해야 합니다. 이는 개인화를 위한 것이거나 응답의 관련성을 개선하기 위한 것일 수 있습니다.

요약하자면, AI 지능의 데이터 프라이버시를 이해하려면 사용자 데이터가 수집, 사용, 저장 및 보호되는 방식을 이해하고 사용자가 자신의 데이터에 대한 액세스, 수정 및 삭제에 관한 자신의 권리를 인지하도록 하는 것이 포함됩니다. 사용자와 AI 지능의 데이터 검색 메커니즘을 이해하는 것도 데이터 개인정보 보호에 대한 완전한 이해를 위해 중요합니다.

2.2.4 해석 가능성 및 설명 가능성

모방을 통한 학습 → 디커플링

일반적으로 인공 지능은 무작위로 초기화된 전략으로 시작하는 강화 학습(RL) 또는 모방 학습(IL)에서 지속적인 피드백 루프를 사용하여 훈련됩니다. 그러나 이 접근 방식은 익숙하지 않은 환경에서 초기 보상을 얻을 때, 특히 보상이 드물거나 긴 단계의 상호 작용이 끝나야만 가능한 경우 병목현상이 발생합니다. 따라서 그림 3과 같이 전문가 데이터로부터 전략을 학습하여 보이지 않는 환경 공간과 새로운 인프라에 대한 탐색 및 활용도를 향상시킬 수 있는 모방 학습을 통해 훈련된 무한 메모리 인텔리전스를 사용하는 것이 더 나은 솔루션입니다. 전문가 기능을 통해 지능이 보이지 않는 환경 공간을 더 잘 탐색하고 활용할 수 있도록 지원합니다. 지능형 신체 AI는 전문가 데이터에서 직접 전략과 새로운 패러다임 프로세스를 학습할 수 있습니다.

기존의 모방 학습을 통해 인공지능은 전문가 시연자의 행동을 모방하여 전략을 학습할 수 있습니다. 하지만 전문가 전략을 직접 학습하는 것이 항상 최선의 방법은 아닐 수 있는데, 보이지 않는 상황에 대한 일반화가 잘 이루어지지 않을 수 있기 때문입니다. 이 문제를 해결하기 위해 그림 3과 같이 전문가 행동의 주요 측면을 포착하는 문맥적 단서 또는 암묵적 보상 기능을 갖춘 지능형 바디를 학습할 것을 제안합니다. 이를 통해 무한 메모리 인텔리전스는 전문가의 시연을 통해 학습한 실제 세계 행동 데이터를 작업 수행에 활용할 수 있습니다. 이를 통해 대량의 전문가 데이터가 필요하고 복잡한 작업에서 오류가 발생할 가능성이 있는 기존 모방 학습의 단점을 극복할 수 있습니다. 지능형 신체 AI의 핵심 아이디어는 1) 실제 세계의 전문가 데모를 상태-행동 쌍으로 수집하는 무한 지능형 신체와 2) 모방 지능형 신체 생성기의 가상 환경이라는 두 가지 구성 요소로 이루어져 있습니다. 모방 지능형 신체는 전문가의 행동을 모방하는 동작을 생성하고, 지능형 신체는 전문가 동작과 학습 정책에 의해 생성된 동작 간의 차이의 손실 함수를 줄임으로써 상태에서 동작으로의 정책 매핑을 학습합니다.

분리 → 일반화

작업별 보상 기능에 의존하는 대신, 지능형 신체는 다양한 작업 측면을 포괄하는 다양한 상태-행동 쌍을 제공하는 전문가의 시연을 통해 학습합니다. 그런 다음 지능형 신체는 전문가의 행동을 모방하여 상태를 행동에 매핑하는 전략을 학습합니다. 모방 학습에서 디커플링은 학습 과정을 과제별 보상 함수에서 분리하는 것을 의미하며, 이를 통해 과제별 보상 기능에 명시적으로 의존하지 않고도 전략을 여러 과제에 걸쳐 일반화할 수 있습니다. 디커플링을 통해 인공지능은 전문가의 시범을 통해 학습하고 다양한 상황에 적용할 수 있는 전략을 학습할 수 있습니다. 디커플링은 한 영역에서 학습한 전략을 최소한의 미세 조정으로 다른 영역에 적용할 수 있는 전이 학습을 가능하게 합니다. 특정 보상 함수에 얽매이지 않는 일반화된 전략을 학습함으로써 지능형 신체는 한 작업에서 습득한 지식을 다른 관련 작업에서도 잘 수행할 수 있습니다. 지능형 신체는 특정 보상 기능에 의존하지 않기 때문에 보상 기능이나 환경의 변화에 따라 광범위한 재교육 없이도 적응할 수 있습니다. 따라서 학습된 전략은 다양한 환경에서 더욱 강력하고 일반화할 수 있습니다. 이러한 맥락에서 디커플링은 학습 과정에서 보상 함수 학습과 최적의 정책 학습이라는 두 가지 작업을 분리하는 것을 의미합니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 3: 후보 텍스트에서 이미지 관련 텍스트를 식별하기 위해 인텔리전스를 사용하는 새로운 상호 작용 메커니즘의 예시. 이 작업에는 네트워크의 멀티모달 AI 인텔리전스와 수동으로 레이블이 지정된 지식 상호 작용 샘플을 사용하여 외부 세계 정보를 통합하는 작업이 포함됩니다.

일반화 → 새로운 행동

일반화는 더 단순한 구성 요소나 규칙에서 어떻게 새로운 속성이나 동작이 발생할 수 있는지를 설명합니다. 핵심 아이디어는 개별 뉴런이나 기본 알고리즘과 같이 시스템의 동작을 제어하는 기본 요소나 규칙을 파악하는 것입니다. 따라서 이러한 단순한 구성 요소나 규칙이 서로 어떻게 상호 작용하는지 관찰하는 것입니다. 이러한 구성 요소의 상호 작용은 종종 개별 구성 요소만으로는 예측할 수 없는 복잡한 행동의 출현으로 이어집니다. 다양한 수준의 복잡성을 일반화하면 시스템이 이러한 수준에서 적용되는 일반적인 원칙을 학습하여 새로운 속성을 도출할 수 있습니다. 이를 통해 시스템은 새로운 상황에 적응하여 더 단순한 규칙에서 더 복잡한 행동의 출현을 보여줄 수 있습니다. 또한 다양한 수준의 복잡성을 일반화할 수 있는 능력은 한 영역에서 다른 영역으로 지식을 이전하는 것을 용이하게 하여 시스템이 적응하면서 새로운 환경에서 복잡한 동작을 출현시키는 데 도움이 됩니다.

2.2.5 추론 향상

인공지능의 추론 능력은 학습 및 입력 데이터를 기반으로 해석, 예측, 대응하는 능력에 있습니다. 이러한 기능은 발전하고 개선되고 있지만, 그 한계와 학습된 기초 데이터의 영향을 인식하는 것이 중요합니다. 특히 대규모 언어 모델(LLM)의 경우, 학습된 데이터와 입력 데이터를 기반으로 결론을 도출하고 예측하며 응답을 생성하는 능력을 말하며, AI 지능의 추론 증강은 성능, 정확성 및 유용성을 향상시키기 위해 추가 도구, 기술 또는 데이터를 사용하여 AI의 자연 추론 능력을 보강하는 것을 말합니다. 이는 복잡한 의사 결정 시나리오나 미묘하거나 전문적인 콘텐츠를 다룰 때 특히 중요합니다. 추론 능력을 향상시키는 데 특히 중요한 소스를 아래에 나열해 보겠습니다:

풍부한 데이터.

추가(종종 외부) 데이터 소스를 통합하여 더 많은 맥락이나 배경을 제공하면 특히 학습 데이터가 제한적인 영역에서 인공지능이 더 많은 정보를 바탕으로 추론하는 데 도움이 될 수 있습니다. 예를 들어, 인공지능은 대화나 텍스트의 문맥에서 의미를 추론할 수 있습니다. 주어진 정보를 분석하여 사용자 쿼리의 의도와 관련 세부 정보를 이해하는 데 사용합니다. 이러한 모델은 데이터의 패턴을 인식하는 데 능숙합니다. 이 기능을 사용하여 학습 중에 학습한 패턴을 기반으로 언어, 사용자 행동 또는 기타 관련 현상에 대한 정보를 추론합니다.

알고리즘 개선.

더 나은 추론을 위해 AI의 기본 알고리즘을 개선합니다. 여기에는 고급 머신러닝 모델 사용, 다양한 유형의 AI 통합(예: 자연어 처리(NLP)와 이미지 인식의 결합), 복잡한 작업을 더 잘 처리하기 위한 알고리즘 업데이트 등이 포함될 수 있습니다. 언어 모델링의 추론에는 인간의 언어를 이해하고 생성하는 것이 포함됩니다. 여기에는 어조, 의도, 다양한 언어 구조의 뉘앙스를 파악하는 것이 포함됩니다.

휴먼 인 더 루프(HITL).

인공지능의 추론을 보강하기 위해 사람을 참여시키는 것은 인간의 판단이 중요한 영역(예: 윤리적 고려 사항, 창의적인 작업 또는 모호한 시나리오)에서 특히 유용할 수 있습니다. 인간은 인공지능이 스스로 추론할 수 없는 지침을 제공하거나, 오류를 수정하거나, 인사이트를 제공할 수 있습니다.

실시간 피드백 통합.

사용자 또는 환경의 실시간 피드백을 사용하여 추론을 보강하는 것도 추론 중 성능을 개선하는 또 다른 유망한 접근 방식입니다. 예를 들어, AI는 실시간 사용자 반응이나 동적 시스템의 변화하는 조건에 따라 추천을 조정할 수 있습니다. 또는 AI가 시뮬레이션 환경에서 특정 규칙을 위반하는 행동을 취하는 경우 AI가 스스로 수정할 수 있도록 동적으로 피드백을 제공할 수도 있습니다.

분야 간 지식 이전.

한 영역의 지식이나 모델을 사용하여 다른 영역의 추론을 개선하는 것은 전문 분야에서 결과물을 생성할 때 특히 유용합니다. 예를 들어, 언어 번역을 위해 개발된 기술을 코드 생성에 적용하거나 의료 진단에서 얻은 인사이트를 통해 기계의 예측 유지보수를 향상시킬 수 있습니다.

특정 사용 사례를 위한 사용자 지정.

특정 애플리케이션이나 산업에 맞게 AI의 추론 기능을 조정하려면 전문 데이터 세트에 대해 AI를 훈련시키거나 법률 분석, 의료 진단, 재무 예측 등 특정 작업에 더 적합하도록 모델을 미세 조정하는 작업이 필요할 수 있습니다. 한 도메인 내의 특정 언어나 정보는 다른 도메인의 언어와 대조될 수 있으므로 도메인별 지식에 대한 지능을 미세 조정하는 것이 유용할 수 있습니다.

윤리 및 편견 고려 사항

개선 과정에서 새로운 편견이나 윤리적 문제가 발생하지 않도록 하는 것이 중요합니다. 여기에는 추가 데이터 소스나 새로운 추론 향상 알고리즘의 공정성과 투명성에 미치는 영향을 신중하게 고려하는 것이 포함됩니다. 인공지능은 추론할 때, 특히 민감한 주제에 대해 윤리적 고려 사항을 따라야 할 때가 있습니다. 여기에는 해로운 고정관념을 피하고, 프라이버시를 존중하며, 공정성을 보장하는 것이 포함됩니다.

지속적인 학습과 적응.

새로운 개발, 변화하는 데이터 환경, 진화하는 사용자 요구 사항을 따라잡을 수 있도록 AI의 기능을 정기적으로 업데이트하고 개선하세요.

요약하자면, AI 지능의 추론 증강에는 추가 데이터, 개선된 알고리즘, 사람의 입력 및 기타 기술을 통해 자연스러운 추론 능력을 보강하는 방법이 포함됩니다. 사용 사례에 따라 이러한 향상된 기능은 복잡한 작업을 처리하고 인공지능의 출력의 정확성을 보장하는 데 중요한 역할을 하는 경우가 많습니다.

2.2.6 규정

최근 지능형 신체 AI는 상당한 발전을 이루었으며, 이를 구현된 시스템과 통합함으로써 더욱 몰입감 있고 역동적이며 매력적인 경험을 통해 지능형 신체와 상호 작용할 수 있는 새로운 가능성을 열었습니다. 이러한 과정을 가속화하고 지능형 신체 AI 개발과 관련된 어려움을 완화하기 위해 차세대 AI 지원 지능형 신체 상호 작용 파이프라인의 개발을 제안합니다. 인간과 기계가 의미 있게 소통하고 상호 작용할 수 있는 인간-기계 협업 시스템을 개발합니다. 이 시스템은 대규모 언어 모델(LLM) 또는 시각 언어 모델(VLM)의 대화 기능과 다양한 동작을 활용하여 인간 플레이어와 대화하고 인간의 요구 사항을 파악할 수 있습니다. 그런 다음 필요에 따라 인간 플레이어를 지원하기 위해 적절한 조치를 수행합니다.

인간과 로봇의 협업 시스템에 대규모 언어 모델(LLM)/시각 언어 모델(VLM)을 사용할 때는 이러한 모델이 블랙박스처럼 작동하여 예측할 수 없는 결과물을 생성한다는 점에 유의해야 합니다. 이러한 불확실성은 실제 로봇을 작동하는 것과 같은 물리적 환경에서 매우 중요해질 수 있습니다. 이 문제를 해결하는 한 가지 방법은 큐 엔지니어링을 통해 대규모 언어 모델(LLM)/시각 언어 모델(VLM)의 초점을 제한하는 것입니다. 예를 들어, 지시를 기반으로 로봇 작업 계획을 수행할 때 환경 정보를 단서로 제공하면 텍스트에만 의존하는 것보다 더 안정적인 출력을 생성하는 것으로 보고되었습니다(Gramopadhye and Szafir, 2022). 이 보고서는 대규모 언어 모델(LLM)/시각 언어 모델(VLM)이 해결해야 할 문제 공간은 주어진 프롬프트에 의해 정의된다는 민스키의 AI 프레임워크 이론인 민스키(1975)에 의해 뒷받침됩니다. 또 다른 접근 방식은 사용자가 모델이 초점을 맞추고 있거나 인식하는 것이 무엇인지 이해할 수 있도록 대규모 언어 모델(LLM)/시각 언어 모델(VLM)에 설명 텍스트가 포함되도록 프롬프트를 설계하는 것입니다. 또한 사람이 직접 실행 전 검증 및 수정할 수 있는 상위 레벨을 구현하면 이러한 지침에 따라 작동하는 시스템의 운영을 용이하게 할 수 있습니다(그림 4).

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 4: Wake 외(2023c)에서 개발한 로보틱스 교육 시스템. (왼쪽) 시스템 워크플로. 이 프로세스는 작업 계획의 세 단계로 구성됩니다. ChatGPT 지침 및 환경 정보를 기반으로 로봇 작업을 계획하고, 사용자가 작업 순서를 시각적으로 시연하는 데모 단계. 모든 단계는 사용자가 검토할 수 있으며, 실패하거나 결함이 발견되면 필요에 따라 이전 단계로 다시 돌아갈 수 있습니다. (오른쪽) 데모 데이터를 업로드하고 사용자와 ChatGPT 간의 상호 작용을 허용하는 웹 애플리케이션.

2.3 긴급한 기능을 위한 인텔리전트 AI

대화형 지능 AI 시스템의 채택이 증가하고 있음에도 불구하고, 제안된 대부분의 접근 방식은 보이지 않는 환경이나 시나리오에서 일반화 성능 측면에서 여전히 문제에 직면해 있습니다. 현재의 모델링 관행에서는 개발자가 모델을 미세 조정/사전 훈련하기 위해 각 도메인에 대한 대규모 데이터 세트를 준비해야 하지만, 이 과정은 비용이 많이 들거나 새로운 도메인인 경우 불가능하기도 합니다. 이 문제를 해결하기 위해 저희는 새로운 시나리오, 특히 인간과 지능 간의 협업 공간을 생성하기 위해 일반 기본 모델(ChatGPT, Dall-E, GPT-4 등)의 지식 메모리를 활용하는 대화형 지능을 구축했습니다. 저희는 복잡한 현실 환경에서 인간과의 협업을 통해 어려운 과제를 해결하고 보이지 않는 환경을 탐색하여 가상 현실에 적응할 수 있는 능력을 촉진하는 새로운 메커니즘(지식 추론 상호작용이 있는 혼합 현실이라고 부름)을 발견했습니다. 이 메커니즘을 위해 인텔리전스는 명시적인 네트워크 소스(예: 보이지 않는 시나리오 이해)에서 각 상호 작용 작업에 대한 관련 개별 지식을 수집하고 사전 학습된 모델의 출력에서 암시적으로 추론함으로써 i) 양식을 넘나드는 미시적 반응, ii) 현실과 무관한 방식으로 거시적 행동: 언어 및 다중 모드 영역에서 상호 작용의 차원과 패턴을 개선하고 표현의 역할, 특정 목표 변수, 혼합 현실 및 대규모 언어 모델(LLM)에서 협업 정보의 다양성에 영향을 미칩니다. 다양한 OpenAI 모델과 협력하여 시나리오 생성을 위한 지식 기반 상호 작용 시너지 효과를 조사하고 대화형 인텔리전스 시스템이 설정에서 대규모 기본 모델에 대한 유망한 결과를 더욱 향상시킬 수 있는 방법을 보여줍니다. 이 시스템은 복잡한 적응형 AI 시스템의 일반화 깊이, 인식 및 해석 가능성을 통합하고 개선합니다.

 

3 지능형 신체 AI 패러다임

이 섹션에서는 지능을 위한 AI 학습을 위한 새로운 패러다임과 프레임워크에 대해 설명합니다. 제안된 프레임워크를 통해 몇 가지 목표를 달성할 수 있기를 바랍니다:

  • -
    기존의 사전 학습 모델과 사전 학습 전략을 사용하여 텍스트 또는 시각적 입력과 같은 중요한 양식을 효과적으로 이해하도록 인텔리전스를 안내합니다.
  • -
    적절한 장기 미션 계획 역량을 지원하세요.
  • -
    학습 내용을 나중에 인코딩하고 검색할 수 있는 니모닉 프레임워크를 소개합니다.
  • -
    환경 피드백을 사용하여 지능이 어떤 조치를 취해야 하는지 효과적으로 학습하도록 훈련할 수 있습니다.

그림 5에는 이러한 시스템의 중요한 하위 모듈을 개괄적으로 보여주는 높은 수준의 새로운 인텔리전스 다이어그램이 나와 있습니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 5: 멀티모달 범용 지능을 위한 새로운 지능형 신체 패러다임 제안. 그림과 같이 1) 작업 계획 및 기술 관찰을 포함한 환경 및 지각, 2) 지능형 신체 학습, 3) 기억, 4) 지능형 신체 동작, 5) 인지 등 5가지 주요 모듈로 구성됩니다.

3.1 대규모 언어 모델 및 시각적 언어 모델

그림 5와 같이 대규모 언어 모델(LLM) 또는 시각 언어 모델(VLM)을 사용하여 지능형 바디의 구성 요소를 부트스트랩할 수 있습니다. 특히, 대규모 언어 모델은 작업 계획에서 우수한 성능을 보이고(공 등, 2023a), 많은 양의 세계 지식을 포함하고(유 등, 2023b), 인상적인 논리적 추론 능력을 발휘하는 것으로 나타났습니다(크레스웰 등, 2022). 또한 CLIP Radford 등(2021)과 같은 시각 언어 모델은 언어에 맞춰진 범용 시각 코더를 제공할 뿐만 아니라 제로 샘플 시각 인식 기능을 제공합니다. 예를 들어, LLaVA Liu 외(2023c) 및 InstructBLIP Dai 외(2023)와 같은 최첨단 오픈 소스 멀티모달 모델은 시각 인코더로 고정된 CLIP 모델을 사용합니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 6: 대규모 언어 모델(LLM)과 대규모 시각 모델(LVM)을 결합하여 다중 모달 AI 인텔리전스를 만드는 현재의 패러다임을 보여줍니다. 일반적으로 이러한 모델은 시각 또는 언어 입력을 받고 사전 학습되고 고정된 시각 및 언어 모델을 사용하여 더 작은 하위 양식의 하위 네트워크를 연결하고 연결하는 방법을 학습합니다. 예를 들면 Flamingo Alayrac 외(2022), BLIP-2 Li 외(2023c), InstructBLIP Dai 외(2023), LLaVA Liu 외(2023) 등이 있습니다.

3.2 지능형 바디 트랜스포머의 정의

고정된 매크로 언어 모델과 시각 언어 모델을 AI 인텔리전스로 사용하는 것 외에도 단일 인텔리전스를 사용할 수 있습니다. 트랜스포머 모델을 결합한 시각적 토큰 와 언어적 토큰을 입력으로 사용하며, 이는 Gato Reed 외(2022)와 유사합니다. 시각적 및 언어적 입력 외에도 세 번째 일반 유형의 입력을 추가하며, 이를 다음과 같이 표시합니다.지능형 신체 토큰: 개념적으로 지능형 신체 토큰은 모델의 입력 및 출력 공간에서 지능형 신체 동작을 위한 특정 하위 공간을 예약하는 데 사용됩니다. 로봇이나 게임의 경우 컨트롤러의 입력 동작 공간으로 표현할 수 있습니다. 지능형 신체 토큰은 이미지 생성 또는 이미지 편집 모델과 같은 특정 도구를 사용하도록 지능형 신체를 훈련하거나 기타 API 호출에 사용할 수 있으며, 그림 7에서와 같이 지능형 신체 토큰과 시각 및 언어 토큰을 결합하여 멀티모달 지능형 신체 AI 훈련을 위한 통합 인터페이스를 생성할 수 있습니다. 지능형 바디 트랜스포머를 사용하면 독점적인 대규모 언어 모델을 지능형 바디로 사용하는 것보다 몇 가지 장점이 있습니다. 첫째, 자연어로 표현하기 어려운 매우 구체적인 지능형 신체 작업(예: 컨트롤러 입력 또는 기타 특정 동작)에 맞게 모델을 쉽게 사용자 지정할 수 있습니다. 따라서 인텔리전스는 환경 상호작용과 도메인별 데이터를 통해 학습하여 성능을 개선할 수 있습니다. 둘째, 인텔리전스 토큰의 확률에 액세스함으로써 모델이 특정 행동을 취하거나 취하지 않는 이유를 더 쉽게 이해할 수 있습니다. 셋째, 특정 도메인(예: 의료 및 법률)에는 엄격한 데이터 프라이버시 요구 사항이 있습니다. 마지막으로, 상대적으로 작은 지능형 신체 트랜스포머는 대규모 독점 언어 모델보다 훨씬 저렴할 수 있습니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 7: 지능형 시스템을 위한 통합 멀티모달 트랜스포머 모델. 고정된 하위 모듈을 연결하고 기존 기본 모델을 빌딩 블록으로 사용하는 대신 지능형 신체 시스템을 위한 통합된 엔드투엔드 트레이닝 패러다임을 제안합니다. 그림 6의 대형 언어 모델과 대형 비전 모델을 사용하여 하위 모듈을 초기화할 수 있지만, 특정 도메인(예: 로봇 공학)에서 스마트 바디 동작을 수행하도록 모델을 훈련하는 데 사용되는 특수 토큰인 스마트 바디 토큰을 사용할 수도 있습니다. 스마트 바디 토큰에 대한 자세한 내용은 섹션 3.2를 참조하세요.

3.3 트랜스포머 만들기

위의 그림 5에서 볼 수 있듯이 새로운 지능형 신체 패러다임에서는 대규모 언어 모델과 시각 언어 모델의 안내를 받는 지능형 신체를 사용하고, 대규모 기본 모델에서 생성된 데이터를 사용하여 지능형 신체 트랜스포머 모델을 훈련시켜 특정 목표를 수행하는 방법을 학습할 수 있습니다. 이 과정에서 지능형 신체 모델은 특정 작업과 도메인에 맞게 특별히 맞춤화되도록 학습됩니다. 이 접근 방식을 사용하면 기존 기본 모델에서 학습한 기능과 지식을 활용할 수 있습니다. 아래의 두 단계로 프로세스를 간소화한 개요를 보여드립니다:

도메인 내에서 목표를 정의합니다.

지능형 신체 트랜스포머를 훈련하기 위해서는 각 특정 환경에서 지능형 신체의 목표와 행동 공간을 명시적으로 정의해야 합니다. 여기에는 지능이 수행해야 하는 특정 작업이나 행동을 식별하고 각 작업이나 행동에 고유한 지능 토큰을 할당하는 것이 포함됩니다. 또한 성공적인 작업 완료를 인식하는 데 사용할 수 있는 자동화된 규칙이나 절차는 훈련에 사용할 수 있는 데이터의 양을 크게 늘릴 수 있습니다. 그렇지 않으면 기본 모델에서 생성된 데이터나 수동으로 주석을 단 데이터가 모델을 학습시키는 데 필요합니다. 데이터가 수집되고 인텔리전스의 성능을 평가할 수 있게 되면 지속적인 개선 프로세스를 시작할 수 있습니다.

지속적인 개선.

모델의 성능을 지속적으로 모니터링하고 피드백을 수집하는 것은 프로세스의 기본 단계입니다. 피드백은 추가적인 미세 조정 및 업데이트에 사용되어야 합니다. 또한 모델이 편향되거나 비윤리적인 결과를 지속시키지 않도록 하는 것도 중요합니다. 이를 위해서는 학습 데이터를 면밀히 검토하고, 출력의 편향성을 정기적으로 확인하며, 필요한 경우 편향성을 식별하고 피하도록 모델을 학습시켜야 합니다. 모델이 만족스러운 성능에 도달하면 의도한 애플리케이션에 배포할 수 있습니다. 모델이 예상대로 작동하는지 확인하고 필요한 조정을 용이하게 하기 위해 지속적인 모니터링은 여전히 중요합니다. 이 프로세스에 대한 자세한 내용과 학습 데이터의 출처, 지능을 위한 AI의 지속적인 학습에 대한 자세한 내용은 섹션 8을 참조하세요.

 

4 인텔리전스 바디 AI 학습

4.1 전략 및 메커니즘

다양한 영역에서 대화형 AI를 위한 전략은 사용자 피드백, 행동 정보, 생성 및 상호 작용에 유용한 지식을 적극적으로 수집하여 대규모 기본 모델을 호출하는 훈련된 지능을 사용하는 패러다임을 확장합니다. 때로는 대규모 언어 모델/시각 언어 모델을 다시 훈련할 필요가 없으며, 테스트 시점에 향상된 문맥 단서를 제공함으로써 인텔리전스의 성능을 향상시킬 수 있습니다. 반면, 항상 삼원 시스템의 조합을 통해 지식/추론/상식/추론 상호 작용을 모델링합니다. 한 시스템은 다중 모델 쿼리에서 지식 검색을 수행하고, 두 번째 시스템은 관련 지능에서 상호 작용 생성을 수행하며, 마지막으로 강화 학습 또는 모방 학습을 포함한 향상된 방식으로 새롭고 정보가 풍부한 자가 감독 훈련 또는 사전 훈련을 훈련합니다.

4.1.1 학습 강화(RL)

강화 학습(RL)을 사용하여 지능적인 행동을 보이는 대화형 지능을 훈련하는 데는 오랜 역사가 있습니다. 강화 학습은 행동에 대해 받은 보상(또는 처벌)을 기반으로 상태와 행동 간의 최적의 관계를 학습하는 방법입니다. 강화 학습은 확장성이 뛰어난 프레임워크로서 로봇을 비롯한 다양한 애플리케이션에 적용되어 왔지만, 일반적으로 몇 가지 리더보드 문제에 직면해 있으며 대규모 언어 모델/시각 언어 모델은 이러한 어려움을 완화하거나 극복할 수 있는 잠재력을 보여주었습니다:

  • 보상 설계전략 학습의 효율성은 보상 함수의 설계에 따라 크게 달라집니다. 보상 함수를 설계하려면 강화 학습 알고리즘에 대한 이해뿐만 아니라 작업의 특성에 대한 심도 있는 지식이 필요하므로 일반적으로 전문가의 경험을 바탕으로 함수를 설계해야 합니다. 여러 연구에서 보상 함수를 설계하기 위해 대규모 언어 모델/시각적 언어 모델을 사용하는 방법을 탐구했습니다(Yu et al. (2023a); Katara et al. (2023); Ma et al.
  • 데이터 수집 및 효율성 탐색적 특성을 고려할 때 강화 학습에 기반한 전략 학습에는 많은 양의 데이터가 필요합니다(Padalkar 등, 2023). 전략에 긴 시퀀스를 관리하거나 복잡한 작업을 통합하는 것이 포함될 때 대량의 데이터의 필요성은 특히 분명해집니다. 이러한 시나리오에서는 보다 미묘한 의사 결정과 광범위한 상황에서의 학습이 필요하기 때문입니다. 최근 연구에서는 전략 학습을 지원하기 위해 데이터 생성을 강화하려는 노력이 이루어지고 있습니다(Kumar et al. (2023); Du et al. 또한 일부 연구에서는 이러한 모델을 보상 기능에 통합하여 전략 학습을 개선하기도 했습니다(Sontakke 등, 2023). 이러한 발전과 병행하여 시각 언어 모델을 사용하여 학습 과정에서 매개변수 효율성을 달성하는 데 초점을 맞춘 또 다른 연구 Tang 외. (2023); Li 외. (2023d) 및 대규모 언어 모델 Shi 외. (2023).
  • 세로 단계 데이터 효율성과 관련하여 강화 학습은 행동 시퀀스의 길이가 길어질수록 더욱 어려워집니다. 이는 행동과 보상 사이의 불명확한 관계(크레딧 할당 문제라고 함)와 탐색해야 할 상태의 수가 증가하여 상당한 양의 시간과 데이터가 필요하기 때문입니다. 길고 복잡한 작업에 대한 일반적인 접근 방식은 일련의 하위 목표로 분해하고 각 하위 목표를 해결하기 위해 사전 학습된 전략을 적용하는 것입니다(예: Takamatsu et al. (2022)). 이 아이디어는 작업 및 동작 계획(TAMP) 프레임워크(Garrett et al., 2021)에 속합니다. 작업 및 동작 계획은 작업 계획의 목표를 달성하기 위해 높은 수준의 작업 순서를 식별하는 작업 계획과 물리적으로 일관되고 충돌이 없는 궤적을 찾는 동작 계획의 두 가지 주요 구성 요소로 이루어져 있습니다. 대규모 언어 모델은 작업 및 모션 계획에 적합하며, 최근 연구에서는 일반적으로 높은 수준의 작업 계획은 대규모 언어 모델을 사용하여 수행하고 낮은 수준의 제어는 강화 학습 기반 전략으로 해결하는 접근 방식을 취하고 있습니다(Xu 등(2023); Sun 등(2023a); Li 등(2023b); Parakh et al. 대규모 언어 모델의 고급 기능을 통해 추상적 지침을 하위 목표로 효율적으로 분해하여 로봇 시스템의 언어 이해력 향상에 기여할 수 있습니다(Wake et al. (2023c)).

4.1.2 모방 학습(IL)

강화 학습은 행동을 탐색하고 환경과의 상호작용에 따른 보상을 극대화하여 전략을 훈련하는 것을 목표로 하는 반면, 모방 학습(IL)은 전문가 데이터를 사용하여 숙련된 지능이나 전문가의 행동을 모방하는 것을 목표로 합니다. 예를 들어 로봇 공학에서 모방 기반 학습을 위한 주요 프레임워크 중 하나는 행동 복제(BC)입니다. 행동 복제는 직접 복사를 통해 전문가의 행동을 모방하도록 로봇을 훈련시키는 방법입니다. 이 접근 방식에서는 특정 작업을 수행하는 전문가의 행동을 기록하고 로봇이 유사한 상황에서 이러한 행동을 복제하도록 훈련합니다. 행동 복제에 기반한 최근의 접근 방식은 일반적으로 대규모 언어 모델/시각 언어 모델의 기술을 결합하여 보다 진보된 엔드투엔드 모델을 가능하게 합니다. 예를 들어, Brohan 등은 일련의 이미지와 언어를 입력으로 삼고 기본 및 팔 동작의 시퀀스를 출력하는 트랜스포머 기반 모델인 RT-1 Brohan 등(2022)과 RT-2 Brohan 등(2023)을 제시합니다. 이 모델들은 대량의 훈련 데이터로 학습되어 높은 일반화 성능을 보이는 것으로 보고되고 있습니다.

4.1.3 기존 RGB

이미지 입력을 이용한 지능형 신체 동작 학습은 수년 동안 관심을 받아왔습니다(Mnih et al. (2015)). RGB 입력을 사용할 때 내재된 문제는 차원 재앙입니다. 이 문제를 해결하기 위해 연구자들은 더 많은 데이터를 사용하거나(장 외, 2022), 모델 설계에 귀납적 편향을 도입하여 샘플 효율성을 개선했습니다(하 외, 2023). 특히, 저자들은 조작에 사용되는 모델 아키텍처에 3D 구조를 통합합니다 Zeng 외(2021); Shridhar 외(2023); Goyal 외(2023); James와 Davison(2022). 로봇 내비게이션의 경우, Chaplot 등(2020a, b)은 지도를 표현으로 활용합니다. 지도는 이전의 모든 RGB 입력을 집계하는 신경망과 신경 방사장 Rosinol 등(2022)과 같은 3D 재구성 방법을 통해 학습할 수 있습니다.

더 많은 데이터를 얻기 위해 연구자들은 그래픽 시뮬레이터를 사용하여 합성 데이터를 합성하고(Mu et al. (2021); Gong et al. (2023b), sim2real 격차를 좁히려는 시도를 해왔습니다(Tobin et al. (2017); Sadeghi and Levine (2016); Peng et al. (2018)). 최근에는 데이터 부족 문제를 해결하기 위해 대규모 데이터 세트를 큐레이팅하기 위한 공동의 노력이 이루어지고 있습니다(Padalkar et al. (2023); Brohan et al. 한편, 샘플 복잡성을 높이기 위해 데이터 향상 기법도 광범위하게 연구되고 있습니다(Zeng et al. (2021); 라오 등(2020); 하르노자 등(2023); 리프시츠 등(Lifshitz et al.).

4.1.4 컨텍스트 학습

컨텍스트 학습은 GPT-3 Brown 외(2020), Min 외(2022)와 같은 대규모 언어 모델을 사용하여 자연어 처리 작업을 해결하는 데 효과적인 방법임이 밝혀졌습니다. 빅 언어 모델 프롬프트의 맥락에서 작업 예제를 제공함으로써 샘플이 적은 프롬프트가 자연어 처리의 다양한 작업에서 모델 출력을 맥락화하는 데 효과적인 방법임을 알 수 있습니다. 예제의 다양성과 문맥에 제시된 예제의 품질과 같은 요인은 모델 출력의 품질을 향상시킬 수 있습니다(An et al. (2023); Dong et al. (2022)). 멀티모달 기본 모델의 맥락에서, 적은 수의 예제만 주어질 때 Flamingo 및 BLIP-2와 같은 모델은 다양한 시각적 이해 과제에서 효과적인 것으로 나타났습니다 Alayrac 외. (2022); Li 외. (2023c)는 다양한 시각적 이해 과제에서 효과적인 것으로 나타났습니다. 특정 행동을 취할 때 상황별 피드백을 통합함으로써 환경에서의 지능에 대한 맥락 학습을 더욱 향상시킬 수 있습니다(Gong 등, 2023a).

4.1.5 지능형 신체 시스템에서의 최적화

지능형 신체 시스템의 최적화는 공간적 측면과 시간적 측면으로 나눌 수 있습니다. 공간 최적화는 지능형 신체가 물리적 공간에서 작업을 수행하는 방식을 고려합니다. 여기에는 로봇 간의 조정, 리소스 할당 및 조직화된 공간 유지가 포함됩니다.

지능형 신체 AI 시스템, 특히 다수의 지능이 병렬로 작동하는 시스템을 효과적으로 최적화하기 위해 이전 연구에서는 대용량 강화 학습을 사용하는 데 중점을 두었습니다(Shacklett 등, 2023). 작업별 다중 지성체 상호 작용 데이터 세트는 드물기 때문에 셀프 게임 강화 학습을 통해 지성체 팀을 시간이 지남에 따라 개선할 수 있습니다. 그러나 이는 셀프 게임 훈련 패러다임에 지나치게 적합하기 때문에 인간이나 다른 독립적인 지능이 아닌 셀프 게임에서만 작동할 수 있는 매우 취약한 지능으로 이어질 수도 있습니다. 이 문제를 해결하기 위해 대신 다양한 규칙(Cui 외, 2023), 사르카 외, 2023)을 발견하고 다양한 규칙을 이해하는 지능을 훈련할 수 있습니다. 기본 모델은 인간 또는 다른 독립적인 지능과 규칙을 설정하는 데 도움이 될 수 있으므로 새로운 지능과의 원활한 조정을 가능하게 합니다.

반면에 시간적 최적화는 인공지능이 시간에 따라 작업을 수행하는 방식에 초점을 맞춥니다. 여기에는 작업 스케줄링, 시퀀싱 및 타임라인 효율성이 포함됩니다. 예를 들어, 로봇 팔의 궤적을 최적화하는 것은 연속된 작업 사이의 움직임을 효율적으로 최적화하는 예입니다(Zhou et al. (2023c)). 작업 스케줄링 수준에서는 LLM-DP Dagan 등(2023)과 같은 알고리즘과 ReAct (2023a)와 같은 접근 방식은 환경적 요소를 상호 작용적으로 통합하여 효과적인 작업 계획을 수립합니다.

4.2 에이전트 시스템(0 및 적은 샘플 수준)

4.2.1 상담원 모듈

에이전트 패러다임에 대한 초기 탐색에는 대규모 언어 모델(LLM) 또는 시각 언어 모델(VLM)을 사용하는 대화형 멀티모달 에이전트를 위한 에이전트 AI '모듈'의 개발이 포함되었습니다. 초기 에이전트 모듈은 훈련 또는 상황별 학습에 기여하며 에이전트의 효과적인 스케줄링 및 조정 능력을 입증하기 위한 미니멀한 디자인으로 설계되었습니다. 또한 더 나은 계획을 세우고 현장에서의 향후 행동 방법을 알려주는 초기 단서 기반 메모리 기법도 탐구했습니다. 이를 설명하기 위해, 그림 5와 같이 "MindAgent" 인프라는 1) 작업 계획을 통한 환경 인식, 2) 에이전트 학습, 3) 메모리, 4) 일반 에이전트 행동 예측 및 5) 인지의 5가지 주요 모듈로 구성됩니다.

4.2.2 상담원 인프라

에이전트 기반 AI는 엔터테인먼트, 연구 및 산업 분야에서 빠르게 성장하고 있는 대규모 커뮤니티입니다. 대규모 기본 모델의 개발로 에이전트 AI 시스템의 성능이 크게 향상되었습니다. 하지만 이러한 방식으로 에이전트를 만드는 것은 고품질 데이터 세트를 만드는 데 필요한 작업량과 전체 비용이 증가한다는 한계가 있습니다. Microsoft에서는 고급 하드웨어, 다양한 데이터 소스, 강력한 소프트웨어 라이브러리를 사용하여 고품질 에이전트 인프라를 구축함으로써 멀티모달 에이전트 코파일럿에 상당한 영향을 미쳤습니다. Microsoft가 에이전트 기술의 한계를 계속 확장함에 따라 AI 에이전트 플랫폼은 앞으로도 멀티모달 인텔리전스 분야에서 계속 지배적인 역할을 할 것으로 예상됩니다. 그럼에도 불구하고 에이전트 AI 상호 작용은 현재 여러 기술을 조합해야 하는 복잡한 프로세스로 남아 있습니다. 최근 대규모 제너레이티브 AI 모델링 분야의 발전은 대형 스튜디오는 물론 소규모 독립 콘텐츠 제작자에게도 현재 역량을 뛰어넘는 고품질 경험을 디자인할 수 있는 능력을 제공하여 현재 인터랙티브 콘텐츠에 필요한 높은 비용과 시간을 크게 줄일 수 있는 잠재력을 가지고 있습니다. 현재 HCI 시스템 내부의 멀티모달 에이전트는 대부분 규칙 기반입니다. 인간/사용자의 행동에 반응하는 지능적인 동작이 있고 어느 정도의 네트워크 지식을 갖추고 있습니다. 그러나 이러한 상호 작용은 소프트웨어 개발 비용으로 인해 제한되는 경우가 많아 특정 동작을 시스템에서 구현하지 못하는 경우가 많습니다. 또한 현재 모델은 사용자가 특정 작업을 수행할 수 없는 상황에서 목표를 달성할 수 있도록 설계되지 않았습니다. 따라서 사용자 행동을 분석하고 필요할 때 적절한 지원을 제공하기 위해서는 에이전트 AI 시스템 인프라가 필요합니다.

4.3 상담원 기반 기본 모델(사전 교육 및 미세 조정 수준)

사전 학습된 기본 모델을 사용하면 다양한 사용 사례에 걸쳐 폭넓게 적용할 수 있다는 점에서 상당한 이점을 제공합니다. 이러한 모델을 통합하면 다양한 애플리케이션을 위한 맞춤형 솔루션을 개발할 수 있으므로 각 특정 작업에 대해 라벨이 지정된 대규모 데이터 세트를 준비할 필요가 없습니다.

내비게이션 분야에서 주목할 만한 사례로는 언어 모델에 의해 생성된 텍스트 랜드마크를 효과적으로 활용하여 로봇이 획득한 이미지에 고정시켜 내비게이션에 활용하는 LM-Nav 시스템 Shah 등(2023a)을 들 수 있습니다. 이 접근 방식은 텍스트 데이터와 시각적 데이터의 원활한 융합을 보여줌으로써 광범위한 적용 가능성을 유지하면서 로봇의 내비게이션 능력을 크게 향상시킵니다.

로봇 조작에서 여러 연구에서 개방형 어휘 객체 감지기와 함께 기성 LLM(예: ChatGPT)의 사용을 제안했으며, LLM과 고급 객체 감지기(예: Detic Zhou 등(2022))의 조합은 장면 정보 내에서 텍스트 정보를 위치시키면서 인간의 명령을 이해하는 데 도움이 될 수 있습니다(Parakh 등(2023) ). 또한, 최근의 발전은 GPT-4V(ision)와 같은 고급 멀티모달 모델과 함께 큐 엔지니어링을 사용할 수 있는 가능성을 보여줍니다 Wake et al. (2023b). 이 기술은 다양한 환경에서 사전 훈련된 모델의 다양성과 적응성을 강조하면서 멀티모달 작업 계획의 길을 열어줍니다.

 

5 상담원 AI 분류

5.1 일반 상담원 도메인

컴퓨터 기반 작업과 일반화된 에이전트(GA)는 많은 작업에 유용합니다. 최근 대규모 기본 모델과 대화형 AI 분야의 발전으로 GA에 새로운 기능을 추가할 수 있게 되었습니다. 그러나 GA가 사용자에게 진정한 가치를 제공하려면 다양한 환경과 양식에 쉽게 상호 작용하고 일반화할 수 있어야 합니다. 6장의 에이전트 기반 AI에 대한 주요 챕터는 특히 이러한 주제와 전반적으로 관련된 영역에서 고품질로 확장되었습니다:

멀티모달 에이전트 AI(MMA)는 연구 및 업계 커뮤니티가 서로 교류하고 더 광범위한 에이전트 AI 연구 및 기술 커뮤니티와 교류할 수 있는 포럼 ^1^^^1^ 현재 URL: https://multimodalagentai.github.io/ 입니다. 최근 대규모 기본 모델과 대화형 AI 분야의 발전으로 범용 에이전트(GA)는 제한된 환경에서의 사용자 행동 예측 및 작업 계획과 같은 새로운 기능(예: MindAgent Gong 외. (2023a), 세분화된 다중 모드 비디오 이해 Luo 외. (2022), 로봇 공학 Ahn 외. ( (2022b); Brohan 등(2023)), 또는 사용자에게 지식 피드백이 포함된 채팅 동반자 제공(예: 의료 시스템에 대한 웹 기반 고객 지원 Peng 등(2023)) 등이 있습니다. 대표 및 최근 대표 연구에 대한 자세한 정보는 아래에 나와 있습니다. 저희는 MAA의 미래에 대한 비전을 논의하고 미래 연구자들이 이 분야에서 일할 수 있도록 영감을 주고자 합니다. 이 백서와 포럼에서는 다음과 같은 주요 주제를 다루지만 이에 국한되지는 않습니다:

  • 주요 테마: 멀티모달 에이전트 AI, 일반 에이전트 AI
  • 보조 테마: 구현 에이전트, 모션 에이전트, 언어 기반 에이전트, 시각 및 언어 에이전트, 지식 및 추론 에이전트, 게임, 로봇 공학, 의료용 에이전트 등이 있습니다.
  • 확장 테마: 시각적 내비게이션, 시뮬레이션 환경, 재배치, 에이전트 기반 모델, VR/AR/MR, 구현된 시각 및 언어.

다음으로 다음과 같은 대표적인 에이전트 카테고리를 나열합니다:

5.2 소유 에이전트

우리 몸에는 생물학적 두뇌가 존재하며, 우리 몸은 끊임없이 변화하는 세상을 살아갑니다. 구현형 AI의 목표는 환경과의 상호작용이 필요한 까다로운 작업을 창의적으로 해결하는 방법을 학습하는 로봇과 같은 에이전트를 만드는 것입니다. 이는 매우 어려운 과제이지만, 딥러닝이 크게 발전하고 이미지넷과 같은 대규모 데이터 세트의 가용성이 높아지면서 이전에는 처리하기 어렵다고 여겨졌던 다양한 AI 작업에서 초인적인 성능을 발휘할 수 있게 되었습니다. 컴퓨터 비전, 음성 인식, 자연어 처리는 언어 번역이나 이미지 분류와 같은 수동적인 입출력 작업에서 혁신적인 변화를 가져왔고, 강화 학습은 게임과 같은 대화형 작업에서 세계 최고 수준의 성능을 달성했습니다. 이러한 발전은 AI 구현에 강력한 원동력이 되어 점점 더 많은 사용자가 기계와 상호 작용할 수 있는 지능형 에이전트로 빠르게 이동할 수 있게 해줍니다.

5.2.1 액션 에이전트

액션 에이전트는 시뮬레이션된 물리적 환경이나 실제 세계에서 물리적인 동작을 수행해야 하는 에이전트로, 특히 환경과의 활동에 능동적으로 참여해야 합니다. 유니티는 액션 에이전트를 적용 분야에 따라 크게 게임 AI와 로보틱스의 두 가지 카테고리로 분류합니다.

게임 AI에서 에이전트는 게임 환경 및 기타 독립 개체와 상호 작용합니다. 이러한 설정에서 자연어는 에이전트와 사람 간의 원활한 커뮤니케이션을 가능하게 합니다. 게임에 따라 실제 보상 신호를 제공하는 특정 작업을 완료해야 할 수도 있습니다. 예를 들어, 경쟁 외교 게임에서 인간의 대화 데이터와 행동 전략을 사용하여 언어 모델을 강화 학습으로 훈련하면 인간 수준의 게임 메타 기초 인공지능 연구 외교팀 외(2022) 메타 기초 인공지능 연구(FAIR ) 외교팀, 바흐친, 브라운, 디난, 파리나, 플라허티, 프리드, 고프, 그레이, 후 외(FAIR).

어떤 경우에는 에이전트가 특정 목표를 위해 최적화하지 않고 마을의 평범한 주민처럼 행동할 수도 있습니다(Park et al. (2023a)). 기본 모델은 인간의 행동을 모방하여 보다 자연스러운 상호작용을 시뮬레이션할 수 있기 때문에 이러한 설정에서 유용합니다. 외부 메모리로 증강하면 대화를 계속하고, 일상 활동을 예약하고, 관계를 구축하고, 가상 생활을 할 수 있는 설득력 있는 에이전트를 생성할 수 있습니다.

5.2.2 대화형 상담원

인터랙티브 에이전트는 단순히 월드와 상호작용할 수 있는 에이전트를 말하며, 액션 에이전트보다 더 광범위한 종류의 에이전트로, 상호작용의 형태가 반드시물리 치료작업을 수행하지만 사용자에게 정보를 전달하거나 환경을 수정할 수도 있습니다. 예를 들어, 구현된 대화형 에이전트는 챗봇처럼 대화를 통해 주제에 대한 사용자의 질문에 답하거나 사용자가 기존 정보를 파싱하는 데 도움을 줄 수 있습니다. 에이전트의 기능을 정보 공유를 포함하도록 확장함으로써 에이전트 AI의 핵심 설계와 알고리즘을 진단(Lee 등, 2023) 및 지식 검색 에이전트(Peng 등, 2023)와 같은 다양한 애플리케이션에 효과적으로 적용할 수 있습니다.

5.3 시뮬레이션 및 환경 에이전트

인공지능 에이전트가 환경에서 행동하는 방법을 학습하는 효과적인 방법은 환경과 상호작용을 반복적으로 시도하는 경험을 통해 학습하는 것입니다. 대표적인 접근 방식은 강화 학습(RL)으로, 에이전트를 학습시키기 위해서는 많은 실패가 필요하며, 물리적 에이전트를 사용하는 방법도 존재하지만(Kalashnikov et al., 2018), 물리적 에이전트를 사용하는 것은 시간과 비용이 많이 듭니다. 또한 실제 환경에서의 실패가 위험할 수 있는 경우(예: 자율주행, 수중 차량) 물리적 환경에서의 훈련이 불가능한 경우가 많습니다. 따라서 시뮬레이터를 사용하여 전략을 학습하는 것이 일반적인 접근 방식입니다.

내비게이션 Tsoi 등(2022), Deitke 등(2020), Kolve 등(2017), 물체 조작 Wang 등(2023d), Mees 등(2022), Yang 등(2023a) 등 다양한 시뮬레이션 플랫폼이 구체화된 AI 연구를 위해 제안되었습니다. (2023a); 에사니 외. (2021). 한 예로, 인간과 로봇 에이전트가 내비게이션, 명령 수행, 질문 답변 등 다양한 작업을 수행할 수 있는 3D 실내 환경을 제공하는 Habitat Savva 외(2019), Szot 외(2021)가 있습니다. 또 다른 대표적인 시뮬레이션 플랫폼으로는 3D 실내 환경에서 인간 아바타가 사물을 조작할 수 있도록 지원하는 VirtualHome Puig 외.(2018)가 있습니다. 게임 분야에서는 인간과 AI 간의 협력 작업을 연구하기 위해 설계된 벤치마크 환경인 "Overcooked-AI"를 소개한 Carroll 등(2019)이 있습니다. 마찬가지로 에이전트-환경 상호작용에 초점을 맞추는 것을 넘어 실제 인간의 개입을 통합하는 것을 목표로 하는 연구도 있습니다. Puig 외(2023); Li 외(2021a); Srivastava 외(2022). 이러한 시뮬레이터는 에이전트와 로봇의 상호작용을 포함하는 실제 환경에서의 정책 학습과 인간의 시범 행동을 사용한 IL 기반 정책 학습을 용이하게 합니다.

어떤 경우에는 전략을 학습하는 과정에서 시뮬레이터에 특수 기능을 통합해야 할 수도 있습니다. 예를 들어 이미지 기반 전략을 학습할 때는 실제 환경에 쉽게 적응할 수 있도록 사실적인 렌더링이 필요한 경우가 많습니다(Mittal et al. (2023); Zhong et al. (2023)). 사실적인 렌더링 엔진의 사용은 다양한 조건(예: 조명 환경)을 반영하는 이미지를 생성하는 데 효과적입니다. 또한 물체와의 물리적 상호 작용을 시뮬레이션하려면 물리 엔진을 사용하는 시뮬레이터가 필요합니다 Liu and Negrut (2021). 시뮬레이션에 물리 엔진을 통합하면 현실적인 시나리오에 적용할 수 있는 기술을 습득하는 데 도움이 되는 것으로 나타났습니다 Saito 등(2023).

5.4 제너레이티브 에이전트

대규모 생성 AI 모델 분야의 최근 발전은 대형 게임 스튜디오와 소규모 독립 스튜디오 모두 현재 인터랙티브 콘텐츠에 필요한 높은 비용과 시간을 크게 줄여 현재의 역량을 뛰어넘는 고품질 경험을 제작할 수 있는 잠재력을 가지고 있습니다. 또한 대규모 AI 모델을 샌드박스 환경에 포함하면 사용자가 직접 경험을 제작하고 현재로서는 불가능한 방식으로 창의성을 표현할 수 있게 될 것입니다.

이 에이전트의 목표는 단순히 씬에 인터랙티브 3D 콘텐츠를 추가하는 것이 아닙니다:

  • 오브젝트에 임의의 동작 및 상호작용 규칙을 추가하여 사용자가 최소한의 프롬프트만으로 자신만의 VR 규칙을 만들 수 있습니다.
  • 전체 레벨 지오메트리는 멀티모달 GPT4-v 모델과 시각적 AI 모델을 포함하는 기타 모델 체인을 사용하여 종이에 스케치한 스케치에서 생성됩니다.
  • 디퓨전 모델을 사용하여 씬의 콘텐츠 리텍스처링하기
  • 간단한 사용자 프롬프트로 사용자 지정 셰이더 및 시각 효과 만들기

한 명의 사용자가 현재 가능한 것보다 훨씬 빠르게 경험/게임의 대략적인(하지만 완전한 기능을 갖춘) 스케치를 만들 수 있는 VR 제작 스토리보드/프로토타이핑 툴이 단기적으로 활용될 가능성이 있습니다. 그런 다음 이러한 도구를 사용하여 프로토타입을 확장하고 개선할 수 있습니다.

5.4.1 AR/VR/혼합 현실 에이전트

현재 AR/VR/혼합 현실(이하 XR) 환경에서는 가상 세계의 상호작용을 시뮬레이션할 캐릭터, 환경, 오브젝트를 제작하기 위해 숙련된 아티스트와 애니메이터가 필요합니다. 이는 컨셉 아트, 3D 모델링, 텍스처링, 바인딩, 애니메이션 등 많은 비용이 소요되는 과정입니다. XR 에이전트는 최종 가상 환경을 구축하는 데 도움이 되는 툴과 크리에이터 간의 상호 작용을 촉진하여 이 과정을 지원할 수 있습니다.

유니티의 초기 실험 결과, API 호출을 사용하여 인터넷에서 3D 모델을 다운로드하여 씬에 배치하고 동작과 애니메이션을 위한 스테이트 트리를 할당하는 등 엔진별 메서드를 호출하는 Unity 엔진의 샘플이 적은 메커니즘에서 추가적인 미세 조정 없이 GPT 모델을 사용할 수 있는 것으로 나타났습니다(Huang et al. (2023a)). 이러한 동작은 Unity를 사용하는 오픈 소스 게임 리포지토리에 유사한 코드가 존재하기 때문에 발생했을 수 있습니다. 결과적으로 GPT 모델은 간단한 사용자 프롬프트를 기반으로 많은 오브젝트를 씬에 로드하여 풍부한 시각적 씬을 빌드할 수 있습니다.

이 에이전트 클래스의 목표는 대규모 AI 모델(GPT 모델 제품군 및 확산 이미지 모델)과 렌더링 엔진 간에 효율적인 인터페이스를 제공하는 플랫폼과 도구 세트를 구축하는 것입니다. 여기서는 두 가지 주요 방법을 살펴봅니다:

  • 에이전트 인프라의 다양한 에디터 툴에 대규모 모델을 통합하여 개발 속도를 획기적으로 높일 수 있습니다.
  • 사용자 지시를 따르고 런타임에 컴파일되는 코드를 생성하여 사용자 경험에서 렌더링 엔진을 제어함으로써 사용자가 상호작용하는 VR/시뮬레이션을 원하는 방식으로 편집할 수 있고 새로운 에이전트 메커니즘을 도입할 수도 있습니다.

XR 설정에 초점을 맞춘 AI 코파일럿을 도입하면 간단한 에셋 제공이나 코드 샘플 작성과 같은 지루한 작업에 코파일럿을 사용할 수 있어 크리에이터가 창의적인 비전에 집중하고 아이디어를 빠르게 반복할 수 있어 XR 크리에이터에게 유용합니다.

또한 에이전트는 새 에셋을 추가하거나 환경의 다이내믹을 변경하거나 새로운 설정을 구축하여 사용자가 환경을 인터랙티브하게 수정할 수 있도록 지원할 수 있습니다. 이러한 형태의 런타임 다이내믹 생성은 제작자가 지정할 수도 있으므로 사용자 환경이 시간이 지남에 따라 새롭게 느껴지고 진화할 수 있습니다.

5.5 지식 및 논리적 추론 지능

지식을 추론하고 적용하는 능력은 인간 인지의 특징이며, 특히 논리적 추론이나 마음의 이론 이해와 같은 복잡한 작업에서 두드러집니다 ^2^^2^https://plato.stanford.edu/entries/cognitive-science. 지식에 대한 추론은 AI의 반응과 행동이 알려진 사실 및 논리적 원칙과 일치하도록 보장합니다. 원칙. 이러한 일관성은 특히 의료 진단이나 법률 분석과 같은 중요한 애플리케이션에서 AI 시스템의 신뢰와 안정성을 유지하기 위한 핵심 메커니즘입니다. 여기에서는 지식과 추론의 상호 작용을 결합하고 지능과 추론의 특정 측면을 다루도록 설계된 여러 가지 지능을 소개합니다.

5.5.1 지식 인텔리전스

지식 인텔리전스는 암묵적 지식과 명시적 지식의 두 가지 방식으로 습득한 지식 시스템을 추론합니다. 암묵적 지식은 일반적으로 대량의 텍스트 데이터로 학습된 후 GPT 제품군(Brown et al., 2020), OpenAI(2023)와 같은 대규모 언어 모델에 의해 캡슐화된 지식입니다. 이러한 모델은 학습 과정에서 암묵적으로 학습한 패턴과 정보를 활용하기 때문에 이해한 듯한 인상을 주는 응답을 생성할 수 있습니다. 반면 명시적 지식은 지식 기반이나 데이터베이스에 있는 정보처럼 구조화되어 있고 직접 쿼리할 수 있으며, 전통적으로 검증 가능한 외부 리소스를 참조하여 AI의 추론을 보강해 왔습니다.

언어 모델의 발전에도 불구하고 암묵적 지식은 정적이며, 세상이 발전함에 따라 구식이 되어가고 있습니다 Lewis 외(2020); Peng 외(2023). 이러한 한계 때문에 AI 시스템이 정확하고 최신의 응답을 제공할 수 있도록 지속적으로 업데이트되는 명시적 지식 소스를 통합해야 합니다. 암묵적 지식과 명시적 지식의 통합은 AI 지능이 인간 지능처럼 미묘한 차이를 이해하고 맥락에 맞게 지식을 적용할 수 있는 능력을 갖추게 합니다(Gao et al., 2022). 이러한 통합은 정보를 보유할 뿐만 아니라 그 정보를 이해, 해석, 사용할 수 있는 지식 중심의 AI 지능을 구축하여 광범위한 학습과 심층 지식 사이의 격차를 해소하는 데 매우 중요합니다(Marcus and Davis, 2019; Gao et al., 2020). 이러한 지능은 세상에 대한 역동적인 정보를 바탕으로 유연한 방식으로 추론하여 견고함과 적응력을 향상시키는 것을 목표로 합니다(Marcus, 2020).

5.5.2 논리적 지능

일반적으로 논리적 지능은 데이터를 처리하거나 논리적 추론 또는 논리적 논증과 관련된 작업을 해결하기 위해 논리적 추론을 적용하도록 설계된 시스템의 구성 요소입니다. GPT-4와 같은 대규모 기본 모델의 맥락에서 논리적 지능은 논리적 추론 작업을 처리하도록 설계된 특수한 구성 요소 또는 하위 모듈을 의미합니다. 이러한 작업에는 일반적으로 추상적인 개념을 이해하고 조작하거나, 주어진 전제에서 결론을 추론하거나, 구조화된 논리적 접근 방식이 필요한 문제를 해결하는 작업이 포함됩니다. 대체로 GPT-4와 같은 기본 모델은 대규모 텍스트 데이터 코퍼스로 학습되며, 논리적 추론이 필요한 작업을 포함하여 다양한 작업을 수행하는 방법을 학습합니다. 따라서 논리적 추론 기능은 전체 아키텍처에 통합되어 있으며, 일반적으로 별도의 고립된 '논리적 지능'을 가지고 있지 않습니다. GPT-4와 유사한 모델은 논리와 관련된 작업을 수행할 수 있지만, 그 접근 방식은 인간이나 기존의 논리 기반 시스템이 작동하는 방식과는 근본적으로 다릅니다. 이들은 공식적인 논리 규칙을 따르거나 논리를 명시적으로 이해하지 않고 학습 데이터에서 학습한 패턴을 기반으로 응답을 생성합니다. 따라서 논리 작업의 성능이 인상적일 수 있지만, 학습 데이터의 특성과 모델 설계의 내재적 한계로 인해 일관성이 없거나 제한적일 수 있습니다. 아키텍처에 별도의 로직 서브모듈을 임베딩하는 예로는 텍스트를 논리적 세그먼트로 파싱하고 토큰 임베딩의 논리적 계층 구조를 명시적으로 모델링하여 사전 학습 중에 LLM이 사용하는 토큰 임베딩 프로세스를 수정하는 (Wang et al., 2023e)이 있습니다.

5.5.3 감성적 추론을 위한 인텔리전스

정서적 이해와 공감은 많은 인간과 컴퓨터의 상호작용에서 인공지능이 갖춰야 할 중요한 기술입니다. 이 점을 설명하기 위해, 매력적인 대화형 지능을 만드는 데 있어 중요한 목표는 지능이 행동할 때 더 큰 감정과 공감을 표현하는 동시에 사회적으로 부적절하거나 불쾌감을 주는 결과를 최소화하는 것입니다. 대화형 지능에 대한 이러한 목표를 발전시키기 위해 공감 신경 이미지에 대한 리뷰를 게시합니다(NICE) 데이터 세트는 거의 2백만 개의 이미지와 해당 수동으로 생성된 댓글 및 일련의 인간 감정 주석이 포함되어 있습니다(Chen et al. (2021)). 또한 이미지 댓글의 감성 생성 모델링을 위해 사전 학습된 새로운 모델을 제공합니다(MAGIC) Chen 등(2021)은 스타일과 감정을 포착하는 언어적 표현을 기반으로 이미지에 대한 댓글을 생성하고 보다 공감적이고, 감성적이며, 매력적이고, 사회적으로 적절한 댓글을 생성하는 데 도움을 주는 것을 목표로 합니다. 실험 결과, 이 접근 방식이 보다 인간적이고 매력적인 이미지 댓글을 작성하는 지능을 훈련하는 데 효과적이라는 사실이 밝혀졌습니다. 공감 인식 지능을 개발하는 것은 대화형 지능의 유망한 방향이며, 특히 현재의 많은 언어 모델이 정서적 이해와 공감적 추론 능력에서 편견을 보인다는 점을 고려할 때 다양한 그룹과 인구를 위한 정서적 이해를 갖춘 지능을 만드는 것이 중요합니다(Mao 외. (2022); Wake 외. (2023d)).

5.5.4 신경 상징 지능

신경 기호 지능은 뉴런과 심볼의 하이브리드 시스템에서 작동합니다. 아빌라 가르세즈와 램(2020). 자연어 표현 문제를 해결하는 것은 입력에 내포된 불연속적인 기호 구조 정보를 명시적으로 포착해야 하기 때문에 어려운 작업입니다. 그러나 대부분의 범용 신경 시퀀스 모델은 이러한 구조 정보를 명시 적으로 캡처하지 않으므로 이러한 작업에 대한 성능이 제한됩니다.Chen 등 (2020)의 연구는 구조화 된 신경 표현 지능에 기반한 새로운 인코더-디코더 모델을 제안합니다.TP-N2F의 인코더는 TPR "바인딩"을 사용합니다. TP-N2F의 인코더는 TPR "바인딩"을 사용하여 벡터 공간에서 자연어 기호 구조를 인코딩하고 디코더는 TPR "바인딩 해제"를 사용하여 기호 공간에서 관계 튜플로 표현되는 순차적 프로그램을 생성하며 각 튜플에는 관계 (또는 연산)와 일부 매개 변수가 포함되어 있습니다.

GPT-4와 같은 명령 추종형 시각 언어(VL) 모델은 제로 샘플 방식으로 광범위한 멀티모달 작업을 지원하는 유연한 인터페이스를 제공합니다. 그러나 완전한 이미지에서 실행되는 인터페이스는 사용자가 이미지 내의 특정 영역을 직접 '가리키고' 액세스할 수 없습니다. 이 기능은 레퍼런스 기반 VL 벤치마크 지원뿐만 아니라 정확한 이미지 내 추론이 필요한 실제 애플리케이션에도 중요합니다. (Park et al., 2023b)에서는 사용자가 (여러) 영역을 입력으로 지정할 수 있는 로컬 시각적 상식 모델을 구축했습니다. 대규모 언어 모델(LLM)에서 로컬 상식 지식을 샘플링하여 모델을 훈련시켰습니다. 구체적으로, LLM이 글로벌 리터럴 이미지 설명과 VL 모델에서 자동으로 생성된 로컬 리터럴 영역 설명 세트를 기반으로 상식 지식을 수집하도록 유도했습니다. 이 프로세스는 이미지와 텍스트 쌍을 정렬하거나 수동으로 작성할 필요가 없기 때문에 확장 가능하고 완전히 자동화되어 있습니다. 선별된 고품질 예시에 대한 리뷰 모델을 개별적으로 훈련함으로써 이미지로만 확장된 일반 지식의 로컬 코퍼스를 학습하면 기존 VL 모델을 성공적으로 개선하여 인용문을 입력으로 사용하는 인터페이스를 지원할 수 있음을 발견했습니다. 제로 샘플 설정 및 수동 평가의 경험적 결과에 따르면, 우리의 개선 접근 방식이 통과 생성 참조 표현식의 기준선에 비해 더 정확한 추론 VL 모델을 생성하는 것으로 나타났습니다.

5.6 대규모 언어 모델 및 시각적 언어 모델링 인텔리전스

많은 연구에서 대규모 언어 모델을 작업 계획 수행을 위한 인텔리전스로 활용했으며(Huang et al., 2022a; Wang et al., 2023b; Yao et al., 2023a; Li et al., 2023a), 대규모 언어 모델의 인터넷 규모 도메인 지식과 제로 샘플 계획 기능을 활용하여 계획 및 추론과 같은 인텔리전스를 수행했습니다. 작업. 최근의 로봇 연구에서도 대규모 언어 모델을 활용하여 자연어 명령을 자연어 또는 파이썬 코드 형태로 일련의 하위 작업으로 분해한 다음 저수준 컨트롤러를 사용하여 실행함으로써 작업 계획을 수행했습니다(Ahn et al., 2022a; Huang et al., 2022b; Liang et al., 2022). 또한 Huang 등(2022b), Liang 등(2022), Wang 등(2023a)도 환경 피드백을 통합하여 작업 성과를 개선합니다. 또한 대규모 텍스트, 이미지 및 비디오 데이터로 훈련된 일반적인 시각적 정렬 대규모 언어 모델을 다양한 환경에서 구현하고 작동할 수 있는 다중 모드 인텔리전스를 만들기 위한 기반으로 사용할 수 있음을 보여주는 많은 연구가 있습니다(Baker 등(2022); Driess 등(2023); Brohan et al.

 

6가지 지능형 신체 AI 적용 과제

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 8: 사용자 인터랙티브 게임 액션 예측 및 인터랙션 편집을 위한 구현된 인텔리전스를 위해 GPT-4V를 통한 Minecraft 던전 게임플레이 센싱 시뮬레이션 및 생성.

6.1 게임 인텔리전스

이 게임은 대규모 언어 모델과 시각 언어 모델 모두에서 지능의 동작을 테스트할 수 있는 독특한 샌드박스를 제공하여 지능의 협업 및 의사 결정 능력의 한계를 확장합니다. 특히 지능이 인간 플레이어 및 다른 지능과 상호 작용하고 환경에서 의미 있는 행동을 취하는 능력을 강조하는 세 가지 영역을 설명합니다.

6.1.1 NPC 행동

최신 게임 시스템에서 NPC(비플레이어 캐릭터)의 동작은 대부분 개발자가 작성한 사전 정의된 스크립트에 의해 결정됩니다. 이러한 스크립트에는 게임 환경의 다양한 트리거 또는 플레이어 행동에 기반한 일련의 반응과 상호작용이 포함되어 있습니다. 하지만 이러한 스크립트의 특성상 플레이어의 행동이나 게임의 역동적인 환경에 따라 진화하지 않고 예측 가능하거나 반복적인 NPC 행동이 발생하는 경우가 많습니다. 이러한 경직성은 역동적인 게임 환경에서 기대하는 몰입감 있는 경험을 방해합니다. 따라서 대규모 언어 모델을 사용하여 NPC 행동의 자율성과 적응성을 유도하여 보다 미묘하고 매력적인 인터랙션을 만드는 것에 대한 관심이 높아지고 있습니다. 인공 지능 기반 NPC는 플레이어의 행동을 학습하고 다양한 전략에 적응하며 더욱 도전적이고 예측할 수 없는 게임 경험을 제공할 수 있습니다. 대규모 언어 모델(LLM)은 게임 내 NPC 행동의 진화에 큰 기여를 할 수 있습니다. 대량의 텍스트를 처리함으로써 LLM은 패턴을 학습하고 보다 다양하고 인간과 유사한 반응을 생성할 수 있습니다. 이를 통해 NPC와의 상호작용을 더욱 매력적이고 예측하기 어렵지 않게 만드는 동적 대화 시스템을 만들 수 있습니다. 또한 플레이어 피드백과 게임 내 데이터로 빅 언어 모델을 학습시켜 플레이어의 기대와 게임 역학에 더 잘 부합하도록 NPC의 행동을 지속적으로 개선할 수 있습니다.

6.1.2 인간과 기계 NPC 상호작용

인간 플레이어와 NPC 간의 상호작용은 게임 경험의 핵심 요소입니다. 기존의 상호작용 모델은 대부분 1차원적이며, NPC는 미리 정의된 방식으로 플레이어의 입력에 반응합니다. 이러한 한계는 가상 영역 내에서 보다 자연스럽고 풍부한 상호작용(사람과 사람 간의 상호작용과 유사)을 구현할 수 있는 잠재력을 제한합니다. 빅 언어 모델링과 시각 언어 모델링 기술의 등장으로 이러한 패러다임이 바뀔 것으로 기대됩니다. 이러한 기술을 활용하면 게임 시스템은 인간의 행동을 분석하고 학습하여 보다 인간과 유사한 상호작용을 제공할 수 있습니다. 이는 게임의 사실감과 몰입도를 향상시킬 뿐만 아니라 통제되지만 복잡한 환경에서 인간과 컴퓨터의 상호작용을 탐색하고 이해할 수 있는 플랫폼을 제공합니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 9: GPT-4V는 큐의 '이동 이력'과 '게임 목표'가 주어지면 높은 수준의 다음 수를 예측하는 데 효과적입니다. 또한 GPT-4V는 플레이어가 손에 나무 통나무를 들고 있다는 것을 정확하게 인식하고 이 인식된 정보를 향후 행동 계획에 통합할 수 있습니다. GPT-4V는 일부 낮은 수준의 동작(예: 배낭을 열기 위해 "E" 키를 누르는 동작)을 예측할 수 있는 것처럼 보이지만, 이 모델의 출력은 본질적으로 원시적인 낮은 수준의 동작 예측(마우스 움직임 포함)에는 적합하지 않으며 낮은 수준의 동작 제어를 위한 추가 모듈이 필요할 수 있습니다.

6.1.3 지능형 신체 기반 게임 분석

게임은 일상 생활의 필수적인 부분으로, 전 세계 인구의 절반이 즐기는 것으로 추정됩니다 https://www.dfcint.com/global-video-game-audience-reaches-3-7-billion/. 또한 정신 건강에도 긍정적인 영향을 미칩니다 https://news.microsoft.com/source/features/work-life/mind-games-how-gaming-can-play-a-positive-role-in-mental- health/. 그러나 현대의 게임 시스템은 게임 개발자가 대부분 수작업으로 제작하기 때문에 인간 플레이어와의 상호 작용이 부족합니다. 이러한 사전 프로그래밍된 행동은 플레이어의 요구에 맞게 조정되지 않는 경우가 많습니다. 따라서 게임에는 플레이어의 행동을 분석하고 필요할 때 적절한 지원을 제공할 수 있는 새로운 AI 시스템이 필요합니다. 지능형 상호작용 시스템은 게이머가 게임 시스템과 상호작용하는 방식을 혁신할 수 있는 잠재력을 가지고 있으며, NPC와 게이머의 상호작용은 더 이상 게임 개발자가 설계한 제한된 규칙에 의해 제약을 받지 않습니다. 이러한 시스템은 게이머의 경험에 원활하게 적응하여 적시에 피드백을 제공함으로써 게임 경험을 풍부하게 하고 인간과 컴퓨터의 상호작용의 시너지를 높일 수 있는 잠재력을 가지고 있습니다.

빅 언어 모델은 채팅 기록, 플레이어 피드백, 내러티브 콘텐츠 등 게임 내 텍스트 데이터를 분석하는 강력한 도구가 될 수 있습니다. 빅 언어 모델은 플레이어의 행동, 선호도, 상호작용의 패턴을 파악하는 데 도움이 되며, 이는 게임 개발자가 게임 메커니즘과 내러티브를 개선하는 데 매우 유용할 수 있습니다. 또한 시각 언어 모델은 게임 세션의 대량의 이미지 및 비디오 데이터를 파싱하여 게임 세계에서 사용자의 의도와 행동을 분석하는 데 도움을 줄 수 있습니다. 또한 빅 언어 모델과 시각 언어 모델은 플레이어 및 다른 지능과 정교하고 인간과 유사한 방식으로 소통할 수 있는 지능형 게임 내 지능의 개발을 촉진하여 전반적인 게임 경험을 향상시킬 수 있습니다. 대규모 언어 모델과 시각 언어 모델 외에도 사용자 입력 데이터는 인간 플레이어를 모방하여 지각, 게임 플레이, 게임 이해를 모델링하는 게임 인텔리전스를 만드는 데 유망한 수단이 될 수 있습니다. 지능형 신체 모델은 플레이어의 상호작용과 피드백, 픽셀 입력, 자연어 계획 및 이해를 결합하여 게임 역학을 지속적으로 개선함으로써 게임 환경을 더욱 플레이어 중심으로 발전시키는 데 도움을 줄 수 있습니다.

6.1.4 게임 장면 구성

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 10: 보이지 않는 Minecraft 비디오에 대한 마스크된 비디오 예측. 왼쪽부터: 원본 프레임, 마스킹된 프레임, 재구성된 프레임, 패치가 적용된 재구성된 프레임.

씬 합성은 몰입감 있는 게임 환경을 만들고 향상하는 데 중요한 부분입니다. 여기에는 게임 내 3차원(3D) 장면과 환경을 자동 또는 반자동으로 생성하는 작업이 수반됩니다. 이 프로세스에는 지형 생성, 오브젝트 배치, 사실적인 조명 생성, 때로는 동적 날씨 시스템까지 포함됩니다.

최신 게임에는 광활한 오픈월드 환경이 등장하는 경우가 많습니다. 이러한 랜드스케이프를 수동으로 디자인하려면 시간과 리소스가 많이 소요될 수 있습니다. 자동화된 지형 생성(주로 절차적 또는 AI 기반 기술을 사용)을 사용하면 사람의 개입 없이도 복잡하고 사실적인 지형을 제작할 수 있습니다. 빅 언어 모델과 시각 언어 모델은 인터넷 규모의 지식을 활용하여 시각적으로 인상적이고 반복되지 않는 독특한 랜드스케이프를 디자인하기 위한 규칙을 개발할 수 있습니다. 또한 빅 언어 모델과 시각 언어 모델을 사용하여 생성된 에셋의 의미론적 일관성과 가변성을 보장할 수 있습니다. 씬에 건물, 초목, 기타 요소와 같은 오브젝트를 사실적이고 미적으로 만족스러운 방식으로 배치하는 것은 몰입감을 높이는 데 매우 중요합니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 11: Minecraft 게임 시나리오에서 사전 학습된 소인공지능 모델을 사용한 낮은 수준의 다음 동작 예측.

시각 언어 모델과 빅 언어 모델은 미리 정의되거나 학습된 규칙과 미학을 따라 오브젝트 배치를 지원하여 레벨 디자인 프로세스의 속도를 높일 수 있습니다. 시각 언어 모델과 빅 언어 모델은 디자인과 미학의 원리를 이해하도록 추가로 훈련하여 콘텐츠를 절차적으로 생성하는 데 도움을 줄 수 있습니다. 시각적으로 매력적이고 상황에 적합한 오브젝트와 씬을 생성하기 위해 절차적 알고리즘이 따를 수 있는 규칙이나 가이드라인을 개발하는 데 도움을 줄 수 있습니다.

사실적인 조명과 대기 효과는 사실적이고 몰입도 높은 게임 환경을 만들기 위한 기반입니다. 고급 알고리즘은 자연스러운 조명 조건과 동적인 날씨 효과를 시뮬레이션하여 장면의 사실감과 분위기를 향상시킬 수 있습니다. 빅 언어 모델은 여러 가지 혁신적인 방식으로 더욱 사실적인 조명 및 대기 효과를 구현하는 시스템을 개발하는 데 도움이 될 수 있습니다. 시각 언어 모델은 실제 조명 및 대기 조건의 대규모 데이터 세트를 분석하여 게임에서 이러한 효과를 시뮬레이션하는 보다 사실적인 알고리즘을 개발하는 데 도움을 줄 수 있습니다. 이러한 모델은 자연광과 날씨의 패턴과 복잡성을 이해함으로써 현실과 매우 유사한 알고리즘을 개발하는 데 기여할 수 있습니다. 빅 언어 모델과 시각 언어 모델은 플레이어의 행동, 게임 상태 또는 외부 입력에 따라 조명과 대기 효과를 실시간으로 조정하는 시스템을 개발하는 데에도 사용할 수 있습니다. 플레이어의 자연어 명령을 처리하여 게임 환경을 수정함으로써 더욱 인터랙티브하고 몰입감 있는 경험을 제공할 수 있습니다.

6.1.5 실험 및 결과

대규모 언어 모델 또는 시각적 언어 모델을 사용한 제로 샘플/소수 샘플 학습.

그림 8과 9에서 볼 수 있듯이, 높은 수준의 설명과 동작 예측을 위해 GPT-4V를 사용합니다. 그림 8은 액션 설명 및 편집을 생성하는 데 GPT-4V를 사용한 몇 가지 정성적 사례를 보여줍니다. 지능형 바디 강화 텍스트는 게임 액션을 선험적으로 사용하여 3D 장면을 생성하는 새로운 방법을 열어 장면의 자연스러움을 개선하는 데 도움을 줍니다. 결과적으로 GPT-4V는 게임 비디오와 관련된 높은 수준의 설명을 생성합니다.

소규모 지능을 위한 사전 학습 모델.

지능형 신체용 시각 언어 아키텍처를 시연하기 위해 먼저 게임 지능형 신체에 널리 사용되는 도메인인 Minecraft 데이터에 대한 사전 학습에 적용하는 방법을 살펴봅니다. 그림 7에서 볼 수 있듯이, 입력 액션-지능체, 비디오 키프레임, 해당 텍스트가 주어지면 표준 인코더-디코더를 사용하여 지능체의 액션과 이미지를 액션 텍스트 토큰과 이미지 패치 토큰으로 변환한 다음, 지능체 시각 언어 디코더를 사용하여 액션 예측 문장으로 변환할 수 있습니다. 전체 아키텍처는 그림 7에 나와 있습니다. Minecraft 비디오 데이터는 5분 분량의 클립으로 구성되어 있으며, 사전 학습에 사용하는 비디오는 78K 비디오로 구성되어 있으며, 사전 학습의 첫 번째 라운드에는 5K 비디오(사전 학습 데이터의 6%를 차지)를 사용합니다. 하루 동안 16개의 NVIDIA v100 GPU에서 2억 5천만 개의 파라미터 모델을 훈련하고 그 모델 결과를 그림 10과 11에서 시각화합니다. 그림 10은 비교적 작은 스마트바디 아키텍처가 훈련 중에 볼 수 없었던 Minecraft 장면에 대해 합리적인 결과물을 생성할 수 있음을 보여줍니다. 그림 11은 모델 예측과 실제 플레이어의 동작을 비교하여 소형 지능형 신체 모델의 저수준 이해 가능성을 보여줍니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 12: 상황별 학습을 위한 마인드에이전트 게임 인프라 계획 기술 및 도구 사용: 게임 환경에서는 작업을 완료하기 위해 다양한 계획 기술과 도구 사용이 필요합니다. 관련 게임 정보를 생성하고 게임 데이터를 빅 언어 모델에서 처리할 수 있는 구조화된 텍스트 형식으로 변환합니다. 빅 언어 모델: 유니티 인프라의 주요 작업 엔진으로, 의사 결정을 내리고 다중 지능 시스템을 위한 디스패처 역할을 합니다. 메모리 히스토리: 관련 정보를 저장하는 유틸리티입니다. 액션 모듈: 텍스트 입력에서 액션을 추출하여 도메인별 언어로 변환하고, 실행 중에 오류가 발생하지 않도록 DSL의 유효성을 검사합니다.

멀티 인텔리전트 바디 인프라.

그림 5의 지능형 신체 패러다임에서 볼 수 있듯이, 저희는 "CuisineWorld"라는 새로운 게임 시나리오를 위한 새로운 인프라를 설계했습니다(Gong et al. (2023a). 우리의 접근 방식은 그림 12에 자세히 설명되어 있습니다. 유니티의 인프라는 GPT-4를 중앙 기획자로 활용하고 여러 게임 도메인에서 작업함으로써 다중 지능 협업을 가능하게 합니다. 유니티는 시스템의 다중 지능 계획 기능을 조사하고 실제 비디오 게임에 인프라를 배포하여 다중 지능과 인간-컴퓨터 협업의 효과를 입증합니다. 또한 협업 효율성을 정량화하기 위해 새로운 자동화된 지표인 협업 점수(CoS)를 제공하는 다중 지능 협업을 위한 텍스트 기반 벤치마크인 'Cuisineworld'를 시연합니다.

게임 설명, 높은 수준의 액션 예측, GPT-4V 힌트에 대한 더 많은 예시와 자세한 내용은 부록을 참조하세요. 블리딩 엣지(그림 32 및 부록 B 참조), 마이크로소프트 플라이트 시뮬레이터(그림 33 및 부록 C 참조), 어쌔신 크리드 오디세이(그림 34 및 부록 D 참조), 기어스 오브 워 4(그림 35 및 부록 E 참조), 스타필드의 예시를 보여 드립니다. 그림 35 및 부록 E 참조, 스타필드 예제는 그림 36 및 부록 F 참조. 또한 Minecraft 예제를 생성하는 데 사용된 GPT4V 프롬프트 프로세스에 대한 자세한 스크린샷은 그림 31 및 부록 A를 참조하세요.

6.2 로봇 공학

로봇은 주변 환경과 효과적으로 상호작용해야 하는 대표적인 지능입니다. 이 섹션에서는 효율적인 로봇 작동의 핵심 요소를 소개하고, 최신 대규모 언어 모델링/시각 언어 모델링(LLM/VLM) 기술이 적용된 연구 주제를 검토하며, 최근 연구 결과를 공유합니다.

시각적 모션 제어.

시각 모션 제어는 로봇 시스템에서 작업을 효율적으로 수행하기 위해 시각적 인식과 운동 동작을 통합하는 것을 말합니다. 이러한 통합은 로봇이 환경의 시각 데이터를 해석하고 그에 따라 모터 동작을 조정하여 환경과 정확하게 상호 작용할 수 있도록 하기 때문에 매우 중요합니다. 예를 들어 조립 라인에서 비전 모션 제어 기능이 탑재된 로봇은 물체의 위치와 방향을 감지하고 로봇 팔을 정확하게 조정하여 해당 물체와 상호 작용할 수 있습니다. 이 기능은 산업 자동화부터 노인의 일상 업무 보조에 이르기까지 다양한 애플리케이션에서 로봇 작업의 정확성과 효율성을 보장하는 데 매우 중요합니다. 또한 시각적 모션 제어는 시각적 피드백을 기반으로 모터 동작을 실시간으로 조정해야 하는 환경 상태가 급변할 수 있는 동적 환경에 로봇이 적응하는 데 도움이 됩니다.

또한 안전한 작동의 맥락에서 시각 정보는 실행 오류를 감지하고 각 로봇 동작의 사전 및 사후 조건을 식별하는 데 매우 중요합니다. 알 수 없는 집안 환경과 같이 통제되지 않은 환경에서는 가구의 모양 변화, 조명 변화, 미끄러짐 등 예측할 수 없는 요인으로 인해 로봇이 의도하지 않은 결과에 노출될 가능성이 더 높습니다. 이러한 환경에서는 미리 계획된 모션 시나리오를 피드 포워드 방식으로만 실행하면 상당한 위험을 초래할 수 있습니다. 따라서 시각적 피드백을 사용하여 각 단계의 결과를 지속적으로 검증하는 것이 로봇 시스템의 견고하고 안정적인 작동을 보장하는 핵심입니다.

언어 조건부 작업.

언어 조건부 작동이란 로봇 시스템이 언어적 지시에 따라 작업을 해석하고 수행하는 능력을 말합니다. 이 측면은 직관적이고 사용자 친화적인 인간-로봇 인터페이스를 만드는 데 특히 중요합니다. 사용자는 자연어 명령을 통해 사람과 사람 간의 의사소통과 유사한 방식으로 로봇에게 목표와 작업을 지정할 수 있으므로 로봇 시스템 작동의 문턱을 낮출 수 있습니다. 예를 들어, 실제 시나리오에서 사용자가 서비스 로봇에게 "테이블 위에 있는 빨간 사과를 집어"라고 지시하면 로봇은 이 명령을 구문 분석하여 해당 명령이 가리키는 물체를 인식하고 해당 물체를 집어 올리는 작업을 수행합니다(Wake et al. (2023c). 핵심 과제는 직접적인 명령부터 추상적인 명령까지 광범위한 명령을 정확하게 해석하고 로봇이 이러한 명령을 실행 가능한 작업으로 변환할 수 있는 강력한 자연어 처리 및 이해 알고리즘을 개발하는 것입니다. 또한 로봇이 이러한 지시를 다양한 작업과 환경에 일반화할 수 있도록 하는 것은 실제 애플리케이션에서 로봇의 다양성과 활용도를 높이는 데 매우 중요합니다. 로봇의 작업 계획을 안내하기 위해 언어 입력을 사용하는 것은 작업 및 동작 계획이라는 로봇 프레임워크에서 주목을 받고 있습니다(Garrett 외., 2021).

스킬 최적화.

최근 연구에서는 로봇 작업 계획에서 대규모 언어 모델링(LLM)의 효율성이 강조되고 있습니다. 그러나 작업을 최적으로 실행하려면, 특히 잡기와 같은 물리적 상호 작용을 포함하는 작업을 최적으로 실행하려면 단순히 사람의 지시를 해석하는 것보다 환경에 대한 심층적인 이해가 필요합니다. 예를 들어, 로봇 잡기에는 후속 동작을 효과적으로 수행하기 위해 정확한 접촉점 Wake 등(2023e)과 팔 자세 Sasabuchi 등(2021)이 필요합니다. 이러한 요소, 즉 정확한 접촉 지점과 팔 자세는 인간에게는 직관적이지만 언어를 통해 표현하기는 어렵습니다. 인터넷 규모의 시각 언어 모델링(VLM)의 발전에도 불구하고 장면에서 이러한 미묘한 간접 단서를 포착하고 이를 로봇 기술로 효과적으로 변환하는 것은 여전히 중요한 과제로 남아 있습니다. 이에 대응하여 로봇 커뮤니티는 증강 데이터세트를 수집하거나(예: 왕 외(2023d), 파달카 외(2023)), 인간의 시연에서 직접 기술을 습득하는 방법을 개발하는 데 점점 더 집중하고 있습니다(Wake 외(2021a)). 데모를 통한 학습과 모방을 통한 학습을 포함한 프레임워크가 이러한 발전을 주도하고 있으며 물리 기술을 최적화하는 데 중요한 역할을 하고 있습니다.

6.2.1 로보틱스를 위한 대규모 언어 모델/시각 언어 모델(LLM/VLM) 인텔리전스.

최근의 연구는 환경 속에서 인간과 상호작용하는 로봇 지능을 위한 대규모 언어 모델/시각 언어 모델(LLM/VLM)의 잠재력을 입증했습니다. 최신 대규모 언어 모델링/시각 언어 모델링(LLM/VLM) 기법을 활용하기 위한 연구 주제는 다음과 같습니다:

멀티모달 시스템최근 입력 정보의 인코더로 최신 대규모 언어 모델링(LLM) 및 시각 언어 모델링(VLM) 기술을 사용하는 엔드투엔드 시스템 개발에 대한 연구가 활발히 진행되고 있습니다. 특히 이러한 기본 모델을 수정하여 다중 모드 정보를 처리하는 것이 중요한 트렌드가 되었습니다(Jiang et al. (2022); Brohan et al. (2023, 2022); Li et al. (2023d); Ahn et al. (2022b); Shah et al. (2023b); Li et al. ( 2023e). 이 적응은 효과적인 구현을 위해 구두 명령과 시각적 단서를 기반으로 로봇 동작을 안내하는 것을 목표로 합니다.

미션 계획 및 기술 교육엔드투엔드 시스템과 달리 작업 및 동작 계획(TAMP) 기반 시스템은 먼저 높은 수준의 작업 계획을 계산한 다음 낮은 수준의 로봇 제어(스킬이라고 함)를 통해 이를 실현합니다.

대규모 언어 모델(LLM)의 고급 언어 처리 기능은 명령을 해석하고 로봇 작업 단계로 분해하여 작업 계획 기술을 크게 발전시킬 수 있는 것으로 나타났습니다(Ni 등(2023); Li 등(2023b); Parakh 등(2023); Wake 등(2023c); Wake 등(2023c)). 기술 훈련의 경우, 여러 연구에서 보상 기능을 설계하기 위해 대규모 언어 모델링(LLM)/시각 언어 모델링(VLM)을 사용하는 방법을 탐구했습니다 Yu 외(2023a); Katara 외(2023); Ma 외(2023), 전략 학습용 데이터 생성을 위해 Kumar 외(2023); Du 외. ( 2023), 또는 보상 기능의 일부로 손탁케 외. (2023). 이러한 노력은 강화 학습 및 모방 학습과 같은 훈련 프레임워크와 결합하여 효율적인 로봇 컨트롤러를 개발하는 데 도움이 될 것입니다.

현장 최적화로봇 공학에서 긴 작업 단계를 수행하는 것은 예상치 못한 예측 불가능한 환경 조건으로 인해 어려울 수 있습니다. 따라서 로봇 분야의 주요 과제는 작업 계획과 실시간 환경 데이터를 결합하여 로봇 기술을 동적으로 적응하고 개선하는 것입니다. 예를 들어, (Ahn et al., 2022b)는 시각 정보로부터 동작의 실행 가능성(즉, 가용성)을 계산하고 이를 계획된 작업과 비교하는 방법을 제안했습니다. 또한, 작업 단계의 전제 조건과 후제 조건(예: 객체의 상태 및 상호 관계)을 출력하여 실행을 최적화하기 위해 대규모 언어 모델(LLM)을 활성화하고(Zhou 등, 2023c), 작업 계획에 필요한 수정을 위해 전제 조건 오류를 감지하는 데 초점을 맞춘 접근법(Raman 등, 2023)도 있습니다. 이러한 전략은 환경 정보를 통합하고 작업 계획 또는 제어기 수준에서 로봇의 동작을 조정하여 환경 지향적인 로봇 실행을 달성하는 것을 목표로 합니다.

지식인과의 대화대화형 로봇을 만들 때 대규모 언어 모델(LLM)은 인간과의 자연스럽고 맥락에 맞는 상호 작용을 촉진할 수 있습니다. 예 외(2023a); 웨이크 외(2023f). 이러한 모델은 인간의 대화를 모방한 응답을 처리하고 생성하여 로봇이 의미 있는 대화에 참여할 수 있도록 합니다. 또한 대규모 언어 모델(LLM)은 개념 평가에 중요한 역할을 합니다(Hensel 외(2023), Teshima 외(2022)) 및 정서적 속성 평가(Zhao 외(2023), Yang 외(2023b), Wake 외(2023d)). 이러한 속성은 인간의 의도를 이해하고 의미 있는 제스처를 생성하는 데 도움을 주어 인간과 컴퓨터 간 커뮤니케이션의 자연스러움과 효과성에 기여합니다.

지능형 기관 탐색하기: 로봇 내비게이션은 지도 기반 경로 계획, 환경 지도 생성을 위한 동시 측위 및 지도 구축(SLAM)과 같은 핵심적인 측면에 초점을 맞춘 오랜 연구 역사를 가지고 있습니다. 이러한 기능은 로봇 운영 체제(ROS)와 같이 널리 사용되는 로봇 미들웨어의 표준이 되었습니다(Guimarães et al. (2016)).

고전적인 내비게이션 기술은 여전히 많은 로봇 애플리케이션에서 널리 사용되고 있지만, 일반적으로 정적 또는 미리 생성된 지도에 의존합니다. 최근에는 컴퓨터 비전 및 자연어 처리와 같은 분야의 획기적인 발전을 활용하여 로봇이 보다 까다로운 환경에서 탐색할 수 있는 고급 기술에 대한 관심이 높아지고 있습니다. 대표적인 과제로는 로봇이 지도 좌표가 아닌 물체 이름을 사용하는 물체 내비게이션 Chaplot et al. 탐색을 위해 지도 좌표가 아닌 물체 이름을 사용합니다. 또한 최근에는 기본 모델 위에 제로 샘플 방식으로 완전히 낯설고 새로운 환경에서 로봇을 탐색하는 기술, 이른바 제로 샘플 객체 탐색 Gadre 등(2023); Dorbala 등(2023); Cai 등(2023)에 대한 관심이 집중되고 있습니다. 또한, 시각 언어 내비게이션(VLN)은 이전에 볼 수 없었던 실제 환경에서 자연어 명령을 통해 지능형 물체를 탐색하는 과제로, Shah 등(2023a); Zhou 등(2023a); Dorbala 등(2022)이 대표적인 과제입니다; Liang 외. (2023); Huang 외. (2023b). 시각 언어 탐색(VLN)은 사물 이름이 아닌 문장(예: "왼쪽 화장실로 걸어가")을 해석하므로 입력 텍스트를 구문 분석하는 데 더 높은 기능이 필요합니다(Wang et al. (2019)).

기본 모델의 출현은 인간의 언어적 명령에 대한 이해와 환경 정보의 시각적 해석을 향상시킴으로써 이 적응형 즉석 내비게이션 기술의 발전에 기여했습니다. 대표적인 시각 언어 내비게이션(VLN) 연구에 대한 자세한 설명은 6.2.2를 참조하세요.

6.2.2 실험 및 결과.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 13: ChatGPT 기반 작업 플래너를 통합한 로봇 교육 시스템의 개요. 이 프로세스는 사용자가 작업 플래너를 사용하여 일련의 동작을 생성하고 필요에 따라 피드백을 통해 결과를 조정하는 작업 계획 단계와 사용자가 로봇 작동에 필요한 정보를 제공하기 위해 일련의 동작을 시각적으로 시연하는 데모 단계로 구성됩니다. 비전 시스템은 로봇 실행에 사용될 시각적 파라미터를 수집합니다.

최근의 시각 언어 모델(VLM)과 대규모 언어 모델(LLM)이 상징적 작업 계획(예: 무엇을 할 것인가)에 좋은 기능을 가지고 있다는 증거가 점점 더 많아지고 있습니다. 그러나 각 작업은 환경 간의 성공적인 상호 작용을 달성하기 위해 낮은 수준의 제어 전략(예: 수행 방법)이 필요합니다. 강화 학습과 모방 학습은 데이터 기반 방식으로 전략을 학습하는 유망한 접근 방식이지만, 또 다른 유망한 접근 방식은 "관찰을 통한 학습"이라는 접근 방식인 라이브 데모를 통해 인간으로부터 직접 전략을 습득하는 것입니다(Wake et al. (2021a); Ikeuchi et al. 이 섹션에서는 작업 계획에 ChatGPT를 사용하고 효과적이고 정확한 실행을 촉진하기 위해 가용성 정보로 계획을 매개변수화하여 계획을 강화한 연구를 소개합니다(그림 13).

이 프로세스는 작업 계획과 매개변수화의 두 가지 모듈로 구성됩니다. 작업 계획에서 시스템은 언어적 지침과 작업 환경에 대한 설명을 수신합니다. 이러한 지침은 사전 정의된 로봇 작업 및 출력 사양과 함께 ChatGPT에 제공되는 포괄적인 프롬프트로 컴파일되어 일련의 분해된 작업과 그에 대한 텍스트 설명을 생성합니다(그림 13, 왼쪽 창). 여기서 주목할 점은 샘플이 적은 접근 방식을 사용한다는 것인데, 이는 ChatGPT가 이 작업에 대해 학습되지 않았음을 의미하며, 하드웨어 관련 데이터 수집 및 모델 학습이 필요 없기 때문에 적용성 측면에서 유리하다는 것입니다. 또한 출력에 텍스트 설명이 있어 사용자가 필요에 따라 결과를 확인하고 조정할 수 있다는 점도 안전하고 안정적인 운영을 위한 핵심 기능입니다. 그림 14는 VirtualHome Puig 외(2018)를 기반으로 수행한 지능 시뮬레이션의 정성적 결과를 보여줍니다. 결과는 합리적인 작업 계획과 출력 조정의 유연성을 보여주며, 이 접근 방식의 광범위한 적용 가능성을 보여줍니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 14: 자동으로 생성된 피드백을 통해 출력 순서를 조정하는 예시. 실험에는 오픈 소스 시뮬레이터인 VirtualHome을 사용했습니다. "테이블 위에 있는 파이를 집어서 밥솥에서 가열하라"는 지시가 주어졌습니다. 작업 플래너는 VirtualHome에서 제공하는 일련의 기능을 계획합니다. 실행 중에 오류가 감지되면 작업 플래너는 자동으로 생성된 오류 메시지와 함께 출력을 수정합니다.

작업 플래너는 작업 시퀀스 간의 일관성을 보장하지만, 실제로 성공적인 작업을 위해서는 세부적인 매개변수가 필요합니다. 예를 들어, 내용물을 흘리지 않고 용기를 운반하려면 잡는 유형이 중요한데, 이는 일반적으로 시뮬레이터에서 무시되는 파라미터입니다(그림 14의 파이를 잡는 예시 참조). 따라서 로봇 시스템에서는 사용자가 각 동작을 시각적으로 보여줘야 합니다(그림 13, 오른쪽 창). 이러한 작업에는 실행에 필요한 사전 정의된 매개변수가 있으며, 비전 시스템은 비디오 Wake 외. (2021b)에서 이를 추출합니다. 한 가지 주목할 점은 로봇 시스템이 인간의 행동(예: 원격 조작)을 정확하게 복제하도록 설계된 것이 아니라 물체 위치의 변화와 같은 다양한 실제 조건을 처리하도록 설계되었다는 점입니다. 따라서 인간 데모에서 추출된 파라미터에는 정확한 동작 경로뿐만 아니라 효과적인 환경 동작을 나타내는 가용성 정보(예: 충돌 회피를 위한 웨이포인트 Wake et al. (2023a), 잡기 유형 Wake et al. (2023e), 상지 자세 Sasabuchi et al. (2021); Wake et al.( 2021a)). 상지 자세는 높은 자유도를 가진 로봇에서 매우 중요하며 작동 로봇과 공존하는 인간에게 예측 가능한 자세를 제시하도록 설계되었습니다. 가용성이 있는 작업 시퀀스는 재사용 가능한 로봇 기술 집합으로 변환되어 강화 학습을 통해 습득하고 로봇이 실행할 수 있습니다(Takamatsu et al. (2022)).

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 15: GPT-4V 및 GPT-4를 사용하는 멀티모달 작업 플래너의 개요. 시스템은 비디오 프레젠테이션과 텍스트 지침을 처리하여 로봇 실행을 위한 작업 계획을 생성합니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 16: 비디오 분석기 출력의 예. 5개의 프레임이 고정된 간격으로 추출되어 GPT-4V에 공급됩니다. 전체 프로세스는 6.2.2절에서 설명합니다.

이를 시각 언어 모델(VLM)과 통합하면 대규모 언어 모델(LLM)로 구동되는 작업 계획을 확장하여 보다 일반화된 로봇 시스템을 구현할 수 있습니다. 여기에서는 사람이 로봇이 복제하려는 작업을 수행하는 멀티모달 입력 컨텍스트(그림 15)에서 위의 작업 플래너를 확장하기 위해 GPT-4V(ision)를 사용하는 예를 보여줍니다. 이 백서에서는 힌트의 일부만 표시했습니다. 전체 프롬프트는 microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts에서 확인할 수 있습니다.

이 프로세스는 데모 비디오와 텍스트를 수신한 다음 일련의 로봇 동작을 출력합니다. 시각 분석기는 비디오에서 사람이 수행하는 동작을 이해하는 것을 목표로 합니다. 우리는 GPT-4V를 사용하여 사람과 사람 사이의 의사소통과 유사한 스타일의 텍스트 명령을 생성하는 프롬프트를 제공했습니다. 그림 16은 텍스트 입력을 사용하여 사용자가 GPT-4V의 인식 결과를 수정하기 위한 피드백을 제공하는 방법을 보여줍니다. 인식 결과의 정확도를 높이기 위해 설계된 이 기능은 보다 강력한 작동을 가능하게 합니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 17: GPT-4V를 사용한 씬 분석기의 출력 예시. 전체 프로세스는 섹션 6.2.2에서 설명합니다.

다음으로, 장면 분석기는 명령의 첫 번째 프레임(또는 환경 이미지)과 비디오 데이터를 기반으로 예상 작업 환경을 텍스트 정보로 컴파일합니다. 이 환경 정보에는 GPT-4V가 인식하는 객체 이름 목록, 객체의 파악 가능한 속성, 객체 간의 공간 관계 등이 포함됩니다. 이러한 연산 프로세스는 GPT-4V에서 블랙박스로 처리되지만 이미지/텍스트 입출력 정보뿐만 아니라 GPT-4V에 대한 지식을 기반으로 합니다. 그림 17은 장면 분석기의 출력 예시를 보여줍니다. 그림에서 볼 수 있듯이 GPT-4V는 작업과 관련된 객체를 성공적으로 선택합니다. 예를 들어, 사람이 테이블 위에 스팸 용기의 위치를 변경하면 테이블이 출력에 포함되지만 냉장고를 여는 작업에서는 테이블이 무시됩니다. 이러한 결과는 장면 분석기가 사람의 동작을 기반으로 장면 정보를 인코딩한다는 것을 시사합니다. 우리는 GPT-4V에 객체 선택 과정의 결과와 이러한 선택의 이유를 설명하도록 요청했습니다. 실제로 이 접근 방식이 합리적인 결과물을 만들어내는 것을 확인했습니다. 마지막으로, 작업 플래너는 주어진 텍스트 지침과 환경 정보를 기반으로 일련의 작업을 출력합니다(Wake et al. (2023c).

로봇 내비게이션을 위한 구현된 인텔리전스.

시각 언어 내비게이션(VLN)의 임무는 현실적인 3D 환경에서 자연어 명령을 실행하기 위해 구현된 지능을 탐색하는 것입니다. 3D 환경에서의 내비게이션은 실제 세계에서 작동하는 모바일 지능형 시스템에 필수적인 기능입니다(Zhu 등(2017a), Mirowski 등(2016), Mousavian 등(2018), Hemachandra 등(2015)). 지난 몇 년 동안 많은 작업과 평가 프로토콜이 제안되었습니다 Savva 등(2017); Kolve 등(2017); Song 등(2017); Xia 등(2018); Anderson 등(2018a), Anderson 등(2018b) 에 요약되어 있습니다. 시각 언어 내비게이션(VLN) Anderson 등(2018a)은 실제 3D 환경에서의 언어 기반 내비게이션에 초점을 맞춥니다. 시각적 언어 탐색(VLN) 과제를 해결하기 위해 (Anderson et al., 2018a)는 주의 기반 시퀀스 간 기준 모델을 개발했습니다. 그 후 (Wang et al., 2018)은 모델의 일반화를 개선하기 위해 모델 없는 모델과 모델 기반 강화 학습(RL)을 결합한 하이브리드 접근 방식을 도입했습니다. 마지막으로 (Fried et al., 2018)에서는 룸 투 룸 데이터 세트에 대한 최신 성능을 확립하기 위해 데이터 증강, 파노라마 액션 공간, 시각 언어 탐색(VLN)을 위한 수정 빔 검색을 사용하는 화자 팔로워 모델을 제안합니다. 이전 연구를 기반으로 (Wang et al., 2019)에서 시각-언어 내비게이션(VLN)을 위한 강화 교차 모달 매칭(RCM)을 소개합니다. RCM 모델은 Fried 외(2018)를 기반으로 하지만 여러 가지 중요한 면에서 다릅니다:(1) RCM은 새로운 유형의 다중 보상 강화 학습(RL)과 시각 언어 내비게이션용 강화 학습을 결합합니다. 언어 탐색(VLN)과 모방 학습을 결합한 반면, 화자-추종자 모델 Fried 외. (2018)는 (Anderson 외., 2018a)에서와 같이 지도 학습만 사용합니다. (2) RCM 추론 내비게이터는 단일 모달 입력에 대한 시간적 주의 메커니즘이 아닌 교차 모달 로컬라이제이션을 수행합니다. (3) RCM 매칭 크리틱은 아키텍처 설계 측면에서 스피커와 유사하지만 전자는 강화 학습(RL) 및 자기 지도 모방 학습(SIL) 훈련을 위한 내재적 보상의 주기적 재구성을 제공하는 데 사용되는 반면 후자는 지도 학습을 위한 훈련 데이터를 증강하는 데 사용됩니다. (Wang et al., 2019)에서는 이 작업의 세 가지 주요 리더 과제인 교차 모달 로컬라이제이션, 잘못된 위치에 대한 피드백, 일반화 문제를 해결하는 방법을 조사합니다. 그림 18에서 볼 수 있듯이, 우리는 강화 학습(RL)을 통해 로컬 및 전 세계적으로 크로스 모달 로컬라이제이션을 시행하는 새로운 강화 크로스 모달 매칭 방법을 제안합니다. 특히 매칭 해설자를 사용하여 내재적 보상을 제공함으로써 명령과 궤적 간의 글로벌 매칭을 장려하고, 추론 내비게이터를 사용하여 로컬 시각 장면에서 교차 모달 로컬라이제이션을 수행합니다. 시각 언어 내비게이션(VLN) 벤치마크 데이터 세트의 평가 결과, RCM 모델이 SPL에서 이전 접근 방식인 10%보다 훨씬 뛰어난 성능을 보이며 새로운 최첨단 성능을 달성하는 것으로 나타났습니다. 학습 전략의 일반화 능력을 향상시키기 위해, 과거의 좋은 결정을 모방하여 보이지 않는 환경을 탐색하는 자기 지도 모방 학습(SIL) 접근 방식을 추가로 도입했습니다. 우리는 자기 지도 모방 학습(SIL)이 더 좋고 효과적인 전략을 근사화하여 보이는 환경과 보이지 않는 환경 간의 성공률 성능 격차를 크게 좁힐 수 있음을 보여줍니다(30.7%에서 11.7%로). 또한, Wang 등(2019)에서는 탐색을 위한 자기 지도 모방 학습 방법을 도입하여 이전 연구에서 충분히 연구되지 않았던 일반화 문제를 명시적으로 해결했습니다. 이 연구와 동시에 Thomason 등(2018), Ke 등(2019), Ma 등(2019a, b)은 시각 언어 탐색(VLN) 과제를 다양한 측면에서 조사했으며, Nguyen 등(2018)은 시각 언어 탐색(VLN) 과제의 변형을 도입하여 필요한 경우 다음을 수행할 수 있도록 했습니다. 사물을 찾기 위해 언어적 도움을 요청합니다. 시각 언어 탐색(VLN) 과제를 위해 보이지 않는 환경 탐색을 제안한 것은 저희가 처음입니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 18: 왕 외(2019)의 시각 언어 탐색(VLN) 작업 구현 지능 데모. 명령어, 로컬 시각적 장면 및 글로벌 궤적이 상위 뷰에 표시됩니다. 지능형 신체는 탑뷰에 액세스할 수 없습니다. 경로 A는 명령을 따르는 데모 경로입니다. 경로 B와 C는 지능형 신체가 실행하는 두 가지 다른 경로입니다.

6.3 건강 관리

의료 분야에서 대규모 언어 모델(LLM)과 시각 언어 모델(VLM)은 진단 지능, 환자 치료 보조, 심지어 치료 보조 역할을 할 수 있지만, 리더에게는 고유한 도전과 책임도 있습니다. 인공지능은 환자 치료를 개선하고 생명을 구할 수 있는 엄청난 잠재력을 가지고 있지만, 오용되거나 성급하게 배치될 경우 전 세계 수천, 수백만 명의 사람들을 위험에 빠뜨릴 수 있는 가능성도 그에 못지않게 위험합니다. 의료 분야에서 AI 인텔리전스를 활용할 수 있는 몇 가지 유망한 방법을 논의하고 리더가 직면한 몇 가지 주요 딜레마를 해결해 보겠습니다.

인텔리전스 진단.

최근 의료 전문가에 대한 높은 수요와 환자 분류 및 진단에 도움이 되는 LLM(대규모 언어 모델)의 잠재력으로 인해 LLM을 환자 진단에 사용하는 의료 챗봇이 큰 주목을 받고 있습니다(Lee et al. (2023)). 대화형 지능, 특히 다양한 환자 집단의 광범위한 사람들에게 중요한 의료 정보를 효과적으로 전달할 수 있는 대화형 지능은 역사적으로 불리하거나 소외된 집단에게 의료 서비스에 대한 공평한 접근성을 제공할 수 있는 잠재력을 가지고 있습니다. 또한 전 세계의 의사와 의료 시스템은 업무 부담이 크고 자원이 부족하여 전 세계 수억 명의 사람들이 적절한 의료 서비스를 받지 못하고 있습니다. 세계보건기구와 세계은행(2015). 진단 인텔리전스는 다양한 언어, 문화, 건강 상태를 이해할 수 있는 능력으로 구축할 수 있기 때문에 수백만 명의 의료 서비스를 개선하는 데 특히 유리한 수단이 될 수 있습니다. 예비 결과에 따르면 대규모 네트워크 데이터를 활용하여 의료 지식이 포함된 대규모 언어 모델(LMM)을 학습시킬 수 있다고 합니다(Li et al. (2023f)). 이는 흥미로운 방향이지만, 진단 인텔리전스의 전망에는 위험이 없는 것은 아닙니다. 다음 섹션에서는 의료 환경에서 환각의 위험성과 잠재적인 해결 방안에 대해 집중적으로 살펴볼 것입니다.

지식 검색 인텔리전스.

의료 상황에서 모델링 환각은 특히 위험하며, 오류의 심각성에 따라 심각한 환자 부상이나 사망으로 이어질 수도 있습니다. 예를 들어, 환자가 실제로 존재하지 않는 질환을 암시하는 진단을 잘못 받으면 치명적인 결과를 초래할 수 있습니다. 이러한 결과에는 치료가 지연되거나 부적절한 치료가 이루어지거나 경우에 따라 필요한 의료 개입이 완전히 이루어지지 않을 수도 있습니다. 진단되지 않거나 오진된 상태의 심각성은 의료 비용 증가, 장기간의 치료로 인한 신체적 스트레스, 극단적인 경우 심각한 부상 또는 사망으로 이어질 수 있습니다. 따라서 지능형 기관을 사용하여 보다 신뢰할 수 있는 지식 검색을 가능하게 하는 방법(Peng 등, 2023)이나 검색 기반 방식으로 텍스트를 생성하는 방법(Guu 등, 2020)이 유망한 방향입니다. 진단 지능과 의료 지식 검색 지능을 결합하면 환각을 크게 줄이는 동시에 진단 대화 지능의 응답의 품질과 정확성을 향상시킬 수 있습니다.

원격 진료 및 원격 모니터링.

지능형 신체 기반 AI는 원격 의료 및 원격 모니터링에서도 의료 서비스 접근성을 개선하고 의료진과 환자 간의 커뮤니케이션을 개선하며 효율성을 높이고 의사-환자 간 빈번한 상호작용에 드는 비용을 절감할 수 있는 큰 잠재력을 가지고 있습니다 Amjad 등(2023). 1차 진료 임상의는 종종 관련성이 없거나 불필요한 환자 메시지, 보고서, 이메일을 검토하는 데 많은 시간을 소비합니다. 의사, 환자 및 기타 의료 서비스 제공자가 보내는 메시지를 분류하고 모든 당사자가 보내는 중요한 메시지를 강조하는 데 도움이 되는 지원 인텔리전스는 큰 잠재력을 가지고 있습니다. 원격 의료 및 디지털 의료 산업은 지능형 신체 AI 시스템이 환자, 임상의 및 기타 AI 지능과 협력할 수 있게 함으로써 엄청난 혁신적 잠재력을 가지고 있습니다.

6.3.1 현재 의료 서비스 용량

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 19: 의료 영상 이해 영역에서 GPT-4V를 사용할 때의 단서 및 반응의 예. 왼쪽부터: (1) 간호사와 의사가 수행한 CT 스캔 이미지, (2) 불규칙한 심전도 스캔의 합성 이미지, (3) ISIC Codella 등(2018)의 피부 병변 데이터 세트의 이미지. GPT-4V는 상당한 의료 지식을 보유하고 있으며 의료 이미지에 대한 추론이 가능하다는 것을 알 수 있습니다. 그러나 보안 훈련으로 인해 특정 의료 이미지를 진단할 수는 없습니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 20: 의료 비디오 이해 영역에서 GPT-4V를 사용할 때의 단서 및 응답 예시. 예제 동영상을 2x2 그리드로 입력하고 프레임의 순서를 나타내는 텍스트를 오버레이했습니다. 처음 두 예제에서는 GPT-4V가 비디오의 프레임을 검사하여 지원 환자에게 수행된 임상 침상 활동을 감지하도록 요청했습니다. 마지막 예에서는 GPT-4V에 심초음파 영상을 평가하라는 메시지를 표시하려고 시도했지만 GPT-4V의 안전 교육으로 인해 자세한 응답을 제공하지 않았습니다. 명확성을 위해 관심 있는 활동을 설명하는 텍스트를 굵은 글씨로 강조하고 불필요한 모델 응답은 축약했습니다. 개인 정보 보호를 위해 개인의 얼굴은 회색으로 처리했습니다.

이미지 이해.

그림 19는 의료 분야에서 GPT-4V와 같은 최신 멀티모달 인텔리전스의 현재 기능과 한계를 보여줍니다. GPT-4V는 병원 진료와 관련된 장비와 절차에 대한 많은 내부 지식을 가지고 있지만, 사용자의 보다 처방적이거나 진단적인 쿼리에 항상 응답하지는 못한다는 것을 알 수 있습니다.

비디오 이해력.

저희는 두 가지 맥락에서 의료용 비디오 이해에 대한 시각 언어 모델링(VLM) 인텔리전스의 성능을 조사했습니다. 첫째, 임상 공간에서 중요한 환자 치료 활동을 인식하는 시각 언어 모델(VLM) 인텔리전스의 능력을 조사했습니다. 둘째, 초음파와 같은 보다 전문적인 영상에 시각 언어 모델(VLM)을 적용하는 방법을 살펴보았습니다. 특히, 그림 20에서는 병원 진료 및 의료 영상 분석을 위한 GPT-4V의 현재 기능과 한계를 보여줍니다.

6.4 멀티모달 인텔리전스

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 21: 대화형 멀티모달 인텔리전스는 상호작용, 음성, 시각, 언어의 네 가지 축으로 구성됩니다. 코파일럿 인텔리전스는 다양한 서비스로 구성됩니다.1) 상호작용 서비스는 자동화된 운영, 인지 및 의사 결정을 위한 통합 플랫폼을 개발하는 데 도움이 됩니다.2) 오디오 서비스는 오디오 및 음성 처리를 애플리케이션과 서비스에 통합합니다.3) 비전 서비스는 이미지, 비디오 및 디지털 잉크의 콘텐츠를 식별하고 분석합니다.4) 언어 서비스는 정형 및 비정형 텍스트에서 의미를 추출합니다.

시각과 언어 이해의 통합은 복잡한 멀티모달 AI 인텔리전스를 개발하는 데 매우 중요합니다. 여기에는 이미지 캡션, 시각적 질문 답변, 비디오 언어 생성 및 비디오 이해와 같은 작업이 포함됩니다. 이 글에서는 이러한 시각-언어적 과제에 대해 자세히 알아보고 AI 지능의 맥락에서 리더가 직면한 과제와 기회를 살펴보고자 합니다.

6.4.1 이미지 언어 이해 및 생성

이미지 언어 이해는 주어진 이미지의 언어적 시각적 콘텐츠를 해석하고 관련된 언어적 설명을 생성하는 작업입니다. 이 작업은 보다 인간과 유사한 방식으로 세상과 상호 작용할 수 있는 AI 지능을 개발하는 데 매우 중요합니다. 가장 인기 있는 작업으로는 이미지 캡션 Lin 등(2014), Sharma 등(2018), Young 등(2014), Krishna 등(2016), 손가락 표현 Yu 등(2016), Karpathy 등(2014), 시각적 질문 답변 등이 있습니다. Antol 외. (2015); Ren 외. (2015); Singh 외. (2019).

최근 지식 집약적인 시각적 질문 답변 과제인 OKVQA Marino 외(2019), KB-VQA Wang 외(2015), FVQA Wang 외(2017), WebQA Chang 외(2021) 등이 소개되고 있습니다. 복합 지능은 이미지 속 사물을 인식하고, 공간 관계를 이해하고, 장면에 대한 정확한 설명 문장을 생성하고, 추론 기술을 사용하여 지식 집약적인 시각적 추론을 처리할 수 있어야 합니다. 이를 위해서는 사물 인식 기술뿐만 아니라 공간 관계, 시각적 의미론에 대한 심층적인 이해, 그리고 이러한 시각적 요소를 세계 지식과 함께 언어 구조에 매핑하는 능력이 필요합니다.

6.4.2 동영상 및 언어 이해 및 생성

비디오 언어 생성.

비디오 자막 또는 비디오 스토리텔링은 일련의 비디오 프레임에 대해 일관된 문장을 생성하는 작업입니다. 비디오 및 언어 작업에 사용되는 반복적인 대규모 기본 모델의 성공에서 영감을 얻은 인텔리전스 기반 증강 모델의 변형은 비디오 언어 생성 작업에서 유망한 결과를 보여줍니다. 근본적인 문제는 신경 인코더-디코더 모델의 견고성이 각 이미지의 내용과 여러 프레임 간의 관계에 대한 포괄적인 이해가 필요한 시각적 스토리텔링 작업에는 잘 작동하지 않는다는 것입니다. 이 분야의 중요한 목표는 일련의 프레임을 효율적으로 인코딩하고 주제적으로 일관된 다중 문장 단락을 생성할 수 있는 지능형 신체 인식 텍스트 합성 모델을 만드는 것입니다.

비디오 이해력.

비디오 이해는 이미지 이해의 범위를 동적 시각 콘텐츠로 확장합니다. 여기에는 비디오의 프레임 시퀀스에 대한 해석과 추론이 포함되며, 종종 함께 제공되는 오디오 또는 텍스트 정보와 함께 사용됩니다. 인텔리전트는 시각, 텍스트, 오디오 등 다양한 양식과 상호 작용하여 비디오 콘텐츠에 대한 고급 이해를 보여줄 수 있어야 합니다. 이 영역의 과제에는 비디오 캡션, 비디오 질문에 대한 답변, 활동 인식 등이 포함됩니다. 비디오 이해에 대한 리더의 과제는 다방면에 걸쳐 있습니다. 시각적 및 언어적 콘텐츠의 시간적 정렬, 긴 순차적 프레임 처리, 시간에 따라 전개되는 복잡한 활동 해석 등이 여기에 포함됩니다. 오디오와 관련하여 지능은 음성, 배경 소음, 음악, 억양을 처리하여 비디오 콘텐츠의 분위기, 배경, 뉘앙스를 이해할 수 있습니다.

이전 연구에서는 온라인에서 사용 가능한 기존 비디오 언어 학습 데이터를 사용하여 비디오 기반 모델을 구축하는 데 중점을 두었습니다(Li et al. (2020, 2021b), Fu et al. (2022), Bain et al. (2021), Zellers et al. (2021, 2022), Fu et al. (2023)). 그러나 이러한 데이터 세트의 제한적이고 종종 일관되지 않은 특성으로 인해 이러한 훈련 과정과 기능을 지원하는 것은 어렵습니다. 비디오 기반 모델은 마스크 앤 콘트라스트 사전 훈련 목표를 사용하여 설계된 다음 각 작업에 맞게 조정됩니다. 이러한 모델은 멀티모달 벤치마크에서는 우수한 결과를 보여주지만, 노이즈가 많은 오디오 트랜스크립션으로 구성된 제한된 비디오 텍스트 데이터에 의존하기 때문에 동작 인식과 같은 비디오 전용 작업에서는 어려움을 겪습니다. 이러한 한계는 또한 대규모 언어 모델이 일반적으로 가지고 있는 견고성과 세분화된 추론 능력의 부족으로 이어집니다.

이미지 언어 이해에 사용되는 것과 유사한 다른 접근 방식은 강력한 추론 기술과 대규모 언어 모델에 대한 광범위한 지식을 활용하여 비디오 통역의 다양한 측면을 개선합니다. 비디오 이해 작업은 ChatGPT 및 GPT4와 같은 언어 전용 모델 또는 오디오, 비디오 및 언어 양식을 별도의 해석 가능한 입력 데이터 유형으로 취급하고 강력한 오픈 소스 모델로 인텔리전스를 배치하는 GPT4-V와 같은 이미지 언어 모델을 통해 단순화됩니다. 예를 들어, Huang 등(2023c), Li 등(2023g)은 오픈 소스 시각 분류/감지/자막 모델을 사용하여 비디오 콘텐츠를 텍스트화함으로써 비디오 이해를 자연어 처리(NLP) 질문-답변 공식으로 변환하고, Lin 등(2023)은 GPT4-V를 시각, 오디오 및 음성 전용 도구와 통합하여 와 통합하여 긴 형식의 동영상에서 캐릭터 동작 및 조작 스크립팅과 같은 복잡한 동영상 이해 작업을 용이하게 합니다.

병행 연구에서는 대규모 모델에서 확장된 데이터 세트를 생성한 다음 생성된 데이터에 시각적 지침 조정을 적용하는 방법을 탐구했습니다(Liu et al. (2023c); Li et al. (2023c); Zhu et al. (2023)). 그런 다음 수많은 오디오, 음성 및 시각 전문가 지각 모델을 사용하여 비디오를 표현했습니다. 자동 음성 인식 도구를 사용하여 음성을 전사하고 다양한 라벨링, 위치 지정 및 캡션 모델을 사용하여 비디오 설명과 관련 데이터를 생성했습니다. Li 등(2023g); Maaz 등(2023); Chen 등(2023); Wang 등(2023f). 이러한 기술은 생성된 데이터 세트에 비디오 언어 모델의 지침을 적용하여 비디오 추론 및 커뮤니케이션 기능을 향상시킬 수 있는 방법을 보여줍니다.

6.4.3 실험 및 결과

  • 지식 집약적 모델: 지식 집약적 검색 작업을 지원하기 위해 인간 주석에 필요한 지식을 결합하는 집중 신경 지식 작업으로, INK Park 외(2022) 및 KAT Gui 외(2022a)에서 소개된 바 있습니다.
  • 멀티모달 인텔리전스: 카멜레온 루 외(2023), MM-React 양 외(2023c)와 같은 다중 모드 언어 모델에 대한 관심이 높아지고 있습니다.
  • 시각적 명령 조정: 이미지 레벨 명령어 조정 데이터세트를 생성하기 위해 VCL Gui 등(2022b), Mini-GPT4 Zhu 등(2023), MPLUG-OWL Ye 등(2023b), LSKD 박 등(2023c)을 사용했습니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 22: 지식을 사용하여 일련의 텍스트 후보에서 이미지 관련 텍스트를 식별하는 집중 신경망 지식(INK) 과제(Park et al., 2022)의 예입니다. 이 과제에서는 웹에서 검색된 시각 및 텍스트 지식과 수동으로 주석을 단 지식을 활용합니다.

지식 집약적 인텔리전스.

그림 22와 23에서 볼 수 있듯이 지식 기반 시각적 질문 답변과 시각 언어 검색 작업은 이미지 콘텐츠 외에 외부 지식이 필요한 멀티모달 머신러닝의 고난도 과제입니다. 최근 대규모 트랜스포머에 대한 연구는 주로 모델 파라미터에 대한 정보 저장의 효율성을 극대화하는 데 중점을 두고 있습니다. 이 연구에서는 멀티모달 트랜스포머가 의사 결정 과정에서 명시적 지식을 사용할 수 있는지 여부라는 다른 측면을 탐구합니다. 트랜스포머 기반 사전 학습 방법은 여러 양식에 걸쳐 지식 표현을 암묵적으로 학습하는 데 탁월한 성공을 거두었습니다. 그러나 기존의 접근 방식(주로 단일 양식)은 주로 지식 검색과 후속 답변 예측을 조사해 왔으며, 검색된 지식의 품질과 관련성, 암묵적 지식과 명시적 지식을 모두 사용하는 추론 과정의 통합에 대한 의문이 제기되었습니다. 이러한 문제를 해결하기 위해 2022년 OK-VQA 오픈 도메인 멀티모달 과제에서 다른 모델보다 6% 더 뛰어난 성능을 보이는 지식 증강 트랜스포머(KAT)를 도입했습니다. KAT는 인코더-디코더 아키텍처를 사용하여 GPT3의 암묵적 지식과 웹사이트의 명시적 지식을 결합하고 다음 중 두 지식 유형을 사용할 수 있도록 지원합니다. 두 지식 유형을 모두 사용하여 답을 생성하는 동안 동시 추론이 가능합니다. 또한 명시적 지식을 결합하면 모델 예측의 해석 가능성이 향상됩니다. 코드와 사전 학습된 모델은 https://github.com/guilk/KAT 에서 확인할 수 있습니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 23: KAT 모델 Gui 등(2022a)은 대조 학습 기반 모듈을 사용하여 명시적 지식 기반에서 지식 항목을 검색하고 GPT-3을 사용하여 근거를 뒷받침하는 암묵적 지식을 검색합니다. 지식의 통합은 각 인코더 트랜스포머가 처리하고 답변 생성은 엔드투엔드 훈련 및 추론 모듈과 디코더 트랜스포머가 공동으로 수행합니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 24: VLC 모델의 일반 아키텍처 Gui 등(2022b). 우리의 모델은 세 가지 모듈로 구성됩니다: (1) 양식별 투영. 패치된 이미지를 임베드하기 위해 간단한 선형 투영을 사용하고 토큰화된 텍스트를 임베드하기 위해 단어 임베딩 레이어를 사용하며, (2) 다중 모달 인코더를 사용합니다. (3) 작업별 디코더로 MAE He 외(2021)에서 초기화된 12-레이어 ViT Dosovitskiy 외(2022) (레이블이 없는 ImageNet-1K)를 백본으로 사용합니다. 사전 훈련 중에만 사용되는 마스크된 이미지/언어 모델링과 이미지-텍스트 매칭을 통해 멀티모달 표현을 학습합니다. 2계층 MLP를 사용하여 다운스트림 작업을 위해 멀티모달 인코더를 미세 조정합니다. 중요한 점은 마스크된 이미지 모델링이 시각 트랜스포머를 초기화할 때뿐만 아니라 사전 훈련의 두 번째 단계에서도 중요하다는 것입니다.

시각 언어 트랜스포머 인텔리전스.

다음으로 이미지 캡션 쌍만을 사용하여 사전 훈련된 트랜스포머인 "캡션으로부터 시각 언어 트랜스포머 훈련"(VLC) 모델을 소개합니다. VLC는 이미지 임베딩에 단순한 선형 투영 레이어만 사용하지만, 객체 검출기나 지도 CNN/ViT 네트워크에 의존하는 다른 방법에 비해 다양한 시각 언어 작업에서 경쟁력 있는 결과를 얻을 수 있습니다. VLC는 객체 검출기나 감독된 CNN/ViT 네트워크에 의존하는 다른 접근 방식에 비해 다양한 시각 언어 작업에서 경쟁력 있는 결과를 달성합니다. 광범위한 분석을 통해 시각 언어 트랜스포머 인텔리전스로서 VLC의 잠재력을 살펴봅니다. 예를 들어, VLC의 시각적 표현이 ImageNet-1K 분류에 매우 효과적이며, 시각화를 통해 VLC가 이미지 청크를 해당 텍스트 토큰과 정확하게 일치시킬 수 있음을 확인했습니다. 추가 학습 데이터를 통한 성능 확장은 대규모의 약한 감독을 받는 오픈 도메인 시각 언어 모델을 개발할 수 있는 큰 잠재력을 보여줍니다.

6.5 비디오 언어 실험

비디오 이해를 위해 사전 학습된 이미지-대형 언어 모델(LLM)을 사용하는 것의 유용성을 이해하기 위해 비디오 캡션 생성을 위해 InstructBLIP Dai 등(2023)을 시간적으로 확장하고 미세 조정했습니다. 구체적으로, Frozen in Time과 동일한 세그먼트화된 시공간 주의 체계를 사용하여 InstructBLIP의 시각 코더(EVA-CLIP-G Sun 외. (2023b))를 확장하고, 훈련 중에 Q-포머와 대규모 언어 모델(LLM)을 유지했습니다(Flan-T5-XL) Bain 외. (2021). Chung et al. (2022)) 동결. 캡션 훈련 중에는 시각 코더의 모든 공간 레이어를 고정하고 시간 레이어는 고정하지 않은 상태로 유지합니다. 이를 통해 모델이 이미지와 동영상을 입력으로 사용할 수 있습니다(InstructBLIP의 이미지 수준 성능과 일치). WebVid10M Bain 외(2021)의 500만 개의 비디오 캡션 하위 집합을 학습했습니다. 그림 25에는 두 가지 예시 출력이 시각화되어 있습니다. 그러나 기존의 인공지능은 비디오 콘텐츠의 정확하고 세분화된 시각적 세부 사항을 완전히 이해하지 못합니다. 시각적 명령 미세 조정 방법은 멀티모달 모델과 인텔리전스가 해결해야 할 일반적인 인간 수준의 지각 능력이 부족하다는 점에서 비슷한 한계를 가지고 있습니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 25: InstructBLIP의 동영상 미세 조정 변형(6.5절에 설명된 방법)을 사용할 때의 단서 및 응답 예시. 이 모델은 장면을 설명하는 긴 텍스트 응답을 생성할 수 있으며 동영상에서 이벤트의 시간성과 관련된 질문에 답할 수 있습니다.

명령 미세 조정 모델은 그림 25와 같이 동영상에 보이는 동작을 정확하게 요약하고 '벤치에 앉아있는 사람'과 같은 동작을 효과적으로 식별하는 데 있어 가능성을 보여줍니다. 그러나 '카메라를 보고 웃는 사람'과 같이 잘못된 세부 정보를 추가하는 경우가 있어, 사람이 관찰하면 분명하게 알 수 있는 대화의 주제나 영상의 분위기를 포착하는 데는 단점을 드러냅니다. 이 단점은 또 다른 주요 한계, 즉 맥락을 통해 비디오 이해도를 높이고 보다 정확한 해석을 돕고 이러한 오해를 방지할 수 있는 오디오 및 음성 양식이 누락되었다는 점을 강조합니다. 이러한 격차를 해소하려면 멀티모달 인텔리전스가 인간의 지각과 유사한 수준의 이해를 달성하고 비디오 해석에 대한 완전한 멀티모달 접근 방식을 보장하기 위해 사용 가능한 모달리티를 총체적으로 통합해야 합니다.

GPT-4V 기반 오디오-비디오-언어 지능.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 26: 6.5절에 설명된 오디오 멀티모달 인텔리전스. 환영 콘텐츠는 빨간색으로 강조 표시되어 있습니다. GPT-4V를 사용하여 1) 비디오 프레임이 포함된 비디오 채팅 요약, 2) 프레임 캡션이 포함된 비디오 요약, 3) 프레임 캡션과 오디오 정보가 포함된 비디오 요약을 생성했습니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 27: 비디오 이해를 위해 시각, 오디오, 텍스트 양식을 결합한 대화형 멀티모달 인텔리전스. 우리의 프로세스는 어려운 부정적 착각을 채굴하여 VideoAnalytica 챌린지를 위한 어려운 쿼리를 생성합니다. 대화형 오디오-비디오-언어 지능 데이터 세트에 대한 자세한 내용은 섹션 9.2를 참조하세요.

그런 다음 린 외(2023)에서 설명한 접근 방식을 따라 비디오를 상세하고 정확하게 이해하기 위해 시각, 오디오, 음성을 통합하는 다중 모드 지능으로 작동하는 GPT-4V의 능력을 평가합니다. 그림 26에 표시된 결과는 비디오 요약 작업에서 다양한 비디오 인텔리전스의 성능을 비교한 것입니다. 비디오 지시 미세 조정 모델(Li et al., 2023g)은 정확한 내용을 제공하지만 빗자루를 사용하여 나무의 높이를 체계적으로 측정하는 것과 같은 구체적인 동작이 누락되어 포괄성과 세부성이 부족합니다.

동영상 설명의 정확성을 높이기 위해 프레임 자막은 GPT-4V를 사용하고 오디오와 그 트랜스크립션은 OpenAI를 사용합니다. Whisper 모델. 그런 다음 GPT-4V에 프레임 전용 캡션을 사용하여 비디오 요약을 생성한 다음 프레임 전용 캡션과 오디오 트랜스크립션을 생성하도록 요청했습니다. 처음에는 프레임 전용 캡션에서 세 번째 세그먼트에서 누군가가 막대기를 깨무는 것과 같은 가상의 이벤트가 발생하는 것을 관찰했습니다. 이러한 부정확한 설명은 동영상 요약에서도 지속되었는데, 예를 들어 "재미있는 반전으로, 그는 가로로 들고 물었다"와 같은 설명이 있었습니다. 오디오 입력이 없으면 인공지능이 이러한 자막 오류를 수정할 수 없기 때문에 의미적으로는 정확하지만 시각적으로 오해의 소지가 있는 설명이 나오게 됩니다.

하지만 지능형 바디에 오디오 트랜스크립션을 제공하면 내용을 정확하게 설명하고 '빗자루를 몸과 수직으로 아래쪽으로 회전'과 같은 세부적인 신체 움직임까지 포착할 수 있습니다. 이러한 수준의 디테일은 훨씬 더 많은 정보를 제공하여 시청자가 동영상의 목적과 주요 세부 사항을 더 명확하게 이해할 수 있게 해줍니다. 이러한 연구 결과는 고품질의 다중 모드 지능을 개발하기 위해 오디오, 비디오 및 언어 상호 작용을 통합하는 것이 중요하다는 점을 강조하며, GPT-4V는 이러한 고급 다중 모드 이해 및 상호 작용을 위한 유망한 기반이 될 수 있습니다.

GPT-4V 기반의 구현된 멀티모달 인텔리전스.

그림 27에서 볼 수 있듯이 주로 StackOverflow를 사용하여 초기 질문을 얻은 다음 "Bing 검색" API를 사용하여 질문과 관련된 비디오 및 오디오를 검색합니다. 다음으로 주로 GPT-4V를 사용하여 관련 텍스트 정보와 높은 수준의 비디오 설명을 얻습니다. 반면에 ASR을 사용하여 키프레임 오디오를 키프레임의 낮은 수준의 조각 설명으로 변환합니다. 마지막으로, GPT-4V를 사용하여 비디오 퀴즈 작업에서 어려운 부정문으로 사용할 수 있는 설득력 있는 '환상'을 생성합니다. 동영상의 현재 프레임에서 상호작용과 퀴즈를 지원하고, 전체적인 높은 수준의 동영상 설명을 요약합니다. 추론 과정에서 웹 검색을 통해 얻은 외부 지식도 통합하여 정답을 개선합니다.

다음은 GPT-4V의 주요 프롬프트에 대해 설명합니다. 전체 프롬프트는 명확성을 위해 들여쓰기되어 있으며 한 페이지에 걸쳐 진행됩니다.

GPT-4V는 동영상은 들을 수 있지만 볼 수 없는 시각 장애인을 위해 동영상에 설명적이고 유익하며 포괄적인 세부 정보를 제공하도록 설계된 어시스턴트입니다. 이 작업은 주어진 주석을 합성하고 JSON으로 출력하여 고품질의 밀도 높은 동영상 설명을 생성하는 방식으로 수행됩니다. 구체적으로는 동영상 검색에 사용된 원본 쿼리, 동영상 제목, 설명, 오디오 트랜스크립션, 동영상 내 특정 시점의 노이즈가 있을 수 있는 설명이 GPT-4V에 제공됩니다. 동일한 동영상의 다른 세그먼트에는 "[시간 시작 - 시간 종료(초)] '텍스트'"로 주석이 추가됩니다. 트랜스크립트와 설명의 조합은 동영상에서 어떤 일이 일어났는지에 대한 정확한 세부 사항과 시각적 표현을 유추하는 데 사용되며, GPT-4V는 필요에 따라 타임스탬프를 결합하거나 분할하여 최적의 동영상 세그먼테이션을 제공합니다.

GPT-4V 출력에 대한 기대치:

  1. 액션 중심의 설명: 오디오로 안내하는 그럴듯한 동작, 움직임, 물리적 시연을 우선시하여 역동적인 시각적 단서를 통해 내러티브를 풍부하게 만듭니다.
  2. 완벽한 동영상 커버리지: 동영상의 모든 순간을 아우르는 지속적이고 일관된 오디오 설명 환경을 제공하여 누락되는 콘텐츠가 없도록 보장합니다.
  3. 간결한 분할: 너무 자세히 설명하지 않고 시각적 동작을 효과적으로 전달할 수 있도록 각각 1~2문장의 집중적이고 간결한 세그먼트로 설명을 작성하세요.
  4. 상황별 시청각 합성: 구두 오디오 콘텐츠와 추론된 시각적 요소를 매끄럽게 혼합하여 기본 화면 활동을 반영하는 내러티브를 형성합니다.
  5. 상상력이 풍부하고 그럴듯한 추측: 오디오와 일치하는 창의적이면서도 그럴듯한 시각적 디테일을 설명에 삽입하여 장면의 이해도를 높입니다.
  6. 정확한 타임코드 일치: 설명 스니펫을 해당 타임코드에 맞춰 정렬하여 예상되는 시각적 세부 정보가 오디오 내러티브의 타임라인과 동기화되도록 합니다.
  7. 자신감 있는 내러티브 전달: 예상되는 시각화가 실제로 일어나는 것처럼 자신 있게 설명을 제시하여 듣는 사람의 신뢰를 쌓을 수 있습니다.
  8. 불합리한 세부 사항 생략: 오디오 및 시각 정보에서 설정한 맥락에 합리적으로 맞지 않는 사물이나 사건에 대한 설명은 제외합니다.

최종 출력은 비디오의 각 세그먼트를 자세히 설명하는 사전 목록이 포함된 JSON 형식으로 구성되어야 합니다.

최종 출력은 비디오의 각 세그먼트를 자세히 설명하는 사전 목록이 포함된 JSON 형식으로 구성되어야 합니다.

['시작': , '종료': , '텍스트': ""]

MC 제작: 제목을 보고 오디오 트랜스크립션을 읽으면 쉽게 풀 수 있는 비디오-텍스트 검색 작업에 대한 객관식 문제를 만드는 것이 과제입니다. 이를 위해 동영상을 가져오는 데 사용된 원본 쿼리, 설명, 오디오 트랜스크립션, 그리고 동영상의 특정 시간에 대한 노이즈가 있을 수 있는 설명을 얻습니다.

  • 오디오 트랜스크립션 형식: - [시작-종료 시간(초)] "트랜스크립트"
  • 시끄러운 설명의 형식: - [시간(초)] "설명"

기본 쿼리는 비디오 콘텐츠와 일치하고 나머지 세 개의 부정 쿼리는 기본 쿼리와 약간 다른 네 개의 쿼리를 생성하도록 GPT-4V에 요청합니다. 기본 쿼리의 선택은 텍스트 원본 쿼리가 오디오 트랜스크립션에 포함되어 있는 경우와 같이 단순히 오디오 트랜스크립션을 듣는 것만 포함해서는 안 됩니다. 제외 쿼리는 동영상 콘텐츠와 밀접한 관련이 있지만 완전히 일치하지는 않아야 하며, 이를 구분하기 위해 동영상을 시각적으로 이해해야 합니다. 예를 들어, 원래 쿼리를 선택하기 위해 듣기만 하는 것이 아니라 동영상을 시청해야 하도록 미묘한 방식으로 의미를 수정합니다. 4개의 쿼리를 자막과 같은 문장으로 컴파일하고, 첫 번째 쿼리는 재구성된 원본 쿼리로 합니다.

동영상에 있는 정보를 사용하여 부정적인 진술을 공식화하는 방법에 대해 단계별로 생각해 보세요. 그리고 부정적 검색어가 부정확하지만 여전히 동영상을 주의 깊게 이해해야 하는 매력적인 선택임을 증명하세요. 그리고 사람들이 실수로 원래 쿼리 대신 부정적 쿼리를 선택하지 않는 방법도 알아보세요.

마지막으로 이 작업을 다음과 같은 분석과 4개의 쿼리 형태로 제시합니다. 원본 쿼리를 번역하는 방법을 생성할 필요는 없습니다.

  • 비디오 분석: xxx
  • 쿼리: [쿼리1, 쿼리2, 쿼리3, 쿼리4]
  • 이유: xxx

6.6 자연어 처리(NLP)를 위한 인텔리전스

6.6.1 대규모 언어 모델(LLM) 인텔리전스

작업 지시를 인식하고 그에 따라 행동하는 것은 수십 년 동안 대화형 AI와 자연어 처리의 근본적인 과제였습니다. 최근 딥러닝이 발전함에 따라 인간과 컴퓨터의 협업을 개선하기 위해 이러한 영역에서 협력하는 것에 대한 관심이 높아지고 있습니다. 저희는 언어 기반 지능을 개선하기 위한 세 가지 구체적인 방향과 그 밖의 다른 방향을 제시합니다:

  • 지식창고에서 도구 사용 및 쿼리. 이 방향은 외부 지식 기반, 웹 검색 또는 기타 유용한 도구를 AI 지능의 추론 과정에 통합하는 것의 중요성을 강조합니다. 다양한 소스의 정형 및 비정형 데이터를 활용함으로써 인공지능은 이해도를 높이고 보다 정확하고 맥락에 맞는 응답을 제공할 수 있습니다. 또한 익숙하지 않은 상황이나 질문에 직면했을 때 인텔리전스가 능동적으로 정보를 찾는 능력을 배양하여 보다 포괄적이고 정보에 입각한 응답을 보장할 수 있습니다. 그 예로는 Toolformer Schick 외(2023), Retrieve What You Need Wang 외(2023g) 등이 있습니다.
  • 지능적 추론 및 계획 능력이 향상되었습니다. 효과적인 인간과 기계의 협업을 위해서는 지능의 추론 및 계획 능력을 향상시키는 것이 필수적입니다. 여기에는 복잡한 명령을 이해하고, 사용자의 의도를 추론하고, 잠재적인 미래 시나리오를 예측할 수 있는 모델을 개발하는 것이 포함됩니다. 이는 리액트 야오 외(2023a)에서처럼 인공지능에게 과거의 행동과 실패를 반성하도록 요청하거나, 검색의 한 형태인 야오 외(2023b)로 인공지능의 사고 과정을 구성함으로써 달성할 수 있습니다. 다양한 결과를 모델링하고 다양한 행동의 결과를 평가함으로써 인공지능은 더 많은 정보를 바탕으로 상황에 맞는 결정을 내릴 수 있습니다.
  • 시스템과 사람의 피드백을 통합합니다. 인공지능은 일반적으로 행동의 효과에 대한 명확한 신호를 제공하는 환경(시스템 피드백)과 언어적 비평을 제공할 수 있는 인간과 함께 작동하는 환경(인간 피드백)의 두 가지 주요 환경에서 작동할 수 있습니다. 이러한 방향은 인공 지능이 전략을 개선하고 오류를 수정할 수 있는 적응형 학습 메커니즘의 필요성을 강조합니다. 자동 생성 우 외(2023). 다양한 피드백 소스로부터 지속적으로 학습하고 적응할 수 있는 능력은 인텔리전스가 사용자 요구에 도움이 되고 일관성을 유지하도록 보장합니다.

6.6.2 일반 LLM(대규모 언어 모델) 인텔리전스

지능형 신체 콘텐츠와 자연어를 인식하고 이해하는 것은 수십 년 동안 대화형 AI 및 자연어 처리의 근본적인 과제였습니다. 최근 딥러닝이 발전하면서 지식 추론과 자연어 생성을 위한 지능형 신체 계획 또는 인간의 피드백을 더 깊이 이해하기 위해 이 두 영역을 함께 연구하는 것에 대한 관심이 높아지고 있습니다. 이는 "자동 생성" Wu 외(2023) 및 "필요한 것을 검색" Wang 외(2023g)와 같은 많은 HCI 인텔리전스의 핵심 구성 요소입니다.

6.6.3 지침은 LLM(대규모 언어 모델) 인텔리전스를 따릅니다.

또한, 사람의 지시를 효과적으로 따르도록 훈련할 수 있는 LLM 지능을 만드는 것도 중요한 연구 분야가 되었습니다. 초기 모델은 인간의 피드백을 사용하여 인간의 선호도를 모방하도록 에이전트 보상 모델을 훈련하는 인간 피드백 기반 강화 학습(RLHF)이라는 프로세스를 통해 훈련했습니다(Ouyang et al., 2022). 이 프로세스는 InstructGPT 및 ChatGPT와 같은 모델을 생성합니다. 인간의 라벨링 없이도 LLM 지능을 따르도록 명령을 보다 효율적으로 훈련하기 위해, 연구자들은 Dolly 2.0 ^5^^^5^Dolly 2.0 블로그 게시물 링크와 같이 사람이 생성하거나 LLM에서 자동으로 파생된 명령/응답 쌍에 대해 직접 LLM 지능을 훈련하는 보다 효율적인 명령 미세 조정 방법을 개발했습니다. Taori et al. (2023). 그림 28은 알파카의 전체 훈련 과정을 보여줍니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 28: 알파카 모델 훈련에 사용된 훈련 방식(Taori et al., 2023). 높은 수준에서, 사용 가능한 LLM은 작은 시드 작업 세트에서 많은 수의 명령어 추종 예제를 생성하는 데 사용됩니다. 그런 다음 생성된 명령어 추종 예제는 기본 모델 가중치에 사용할 수 있는 LLM에 대한 명령어를 미세 조정하는 데 사용됩니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 29: 논리 트랜스포머 지능형 신체 모델 Wang et al. (2023e). 논리적 추론 모듈을 Transformer 기반 추상 요약 모델에 통합하여 논리 지능이 텍스트와 대화 논리에 대해 추론할 수 있도록 지원함으로써 고품질의 추상 요약을 생성하고 사실 오류를 줄일 수 있도록 합니다.

6.6.4 실험 및 결과

대화형 및 자가 피드백 시스템의 인기가 높아지고 있지만, 이러한 형태의 AI는 여전히 자신의 암묵적 지식으로부터 사실에 입각한 정확한 답변을 생성하는 데 있어 성능이 떨어지기 때문에 추론 시 웹 검색 및 지식 검색 메커니즘과 같은 외부 도구를 사용하여 답변을 보강하는 경우가 많습니다. 이 문제를 해결하면 많은 실제 애플리케이션에서 사용자에게 더욱 매력적인 경험을 제공할 수 있습니다. 소셜 대화(예: Instagram, Facebook과 같은 소셜 미디어 플랫폼)나 질문과 답변 사이트(예: Ask 또는 Quora)에서 사람들은 종종 일련의 댓글을 달거나 웹에서 토론과 관련된 정보 및 지식을 검색하여 다른 사람들과 상호 작용합니다. 따라서 이러한 맥락에서 대화 라운드를 생성하는 작업은 기존의 NLP 모델과 작업에 의해 안내되는 것이 아니라 지식 검색 및 습득을 반영하는 지능적인 행동을 통해 대화를 생성하는 데 지능을 사용합니다(Peng et al. (2023)). 이러한 방식으로 NLP 작업을 위한 지능형 지능은 대화 중에 명시적인 지식 검색 및 검색 단계를 추가하여 작업 설명을 확장하고 응답의 해석 가능성을 개선합니다. 이러한 웹 검색 및 검색 지능을 대화 중 피드백으로 통합하면 인간과 지능 간의 사회적 상호작용을 더욱 심도 있게 촉진하는 데 도움이 될 것입니다(Wang et al. (2023e)). 그림 29에서 볼 수 있듯이, 입력 텍스트에서 중요한 논리 구조와 정보를 감지하고 추출한 다음 정교한 다층 계층적 논리 투영을 통해 입력 임베딩에 통합하여 논리 구조를 사전 학습된 언어 모델에 NLP 지능으로 주입하는 트랜스포머 언어 모델의 새로운 모델링 패러다임을 소개합니다.Wang et al.( 2023e)는 논리 탐지, 논리 매핑 및 계층화 된 논리 투영의 조합을 통해 트랜스포머 언어 모델을 구축하는 새로운 접근 방식을 제안했습니다.로직 인식 입력 임베딩그런 다음 새 모델을 개발하여 기존의 모든 Transformer 언어 모델을 다음과 같이 업그레이드할 수 있습니다.로직 트랜스포머의 성능을 지속적으로 개선하고 있습니다. 제안된 논리적 트랜스포머 인텔리전스는 텍스트의 논리적 구조를 더 깊이 이해함으로써 기본 트랜스포머 모델보다 지속적으로 더 나은 성능을 달성합니다. 인간 사용자에게는 대화와 정보 검색 간의 지능 조정을 통해 의미 있고 흥미로운 대화를 제공하는 데 이러한 측면이 더 중요한 경우가 많습니다. 이 주제에서는 자연어 처리에 대해 더 깊이 파고들어 언어 중심적인 다양한 작업에 보다 지능적이고 더 적합한 LLM을 만들기 위한 발전과 순위를 논의합니다.

오픈 도메인 QA(질문 및 답변) 시스템은 일반적으로 다음과 같습니다.검색 후 읽기다음과 같은 패러다임이리트리버를 사용하여 대규모 말뭉치에서 관련 구절을 검색한 다음리더(소프트웨어)검색된 구절과 원래 질문을 기반으로 답을 생성합니다. Wang 등(2023g)에서는 다음과 같은 알고리즘을 통해 상호 학습을 위한 간단하고 새로운 프레임워크를 제안합니다.지식 선택기인텔리전스 향상을 위한 중간 모듈검색 후 읽기스타일 모델 성능을 향상시키기 위해 강화 학습을 사용하여 모듈을 훈련합니다. 세분화된지식 선택기가져오기검색 후 리더패러다임의 목표는 질문과 관련된 정보를 담고 있는 단락의 작은 하위 집합을 구성하는 것입니다. 그림 30에서 볼 수 있듯이 지식 선택자 지능은 지식 선택자와 독자를 반복적으로 훈련하는 새로운 상호 학습 프레임워크의 구성 요소로 훈련됩니다. 우리는 정책 그라데이션을 사용하여 지식 선택기 지능을 최적화하고, 독자의 피드백을 사용하여 정보가 풍부한 작은 구절을 선택하도록 훈련시키는 간단하고 새로운 접근 방식을 채택합니다. 이 접근 방식은 감독을 위한 주석이 달린 쿼리 문서 쌍 없이도 무차별 검색이나 휴리스틱을 수동으로 설계하는 것을 피할 수 있습니다. 여러 공개 오픈 도메인 Q&A 벤치마크에서 리더와 지식 선택기 지능을 반복적으로 훈련하면 예측 성능이 향상되는 것으로 나타났습니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 30: NLP 인텔리전스를 위해 제안된 상호 학습 프레임워크의 아키텍처 왕 외. (2023g). 각 에포크에서 1단계와 2단계가 번갈아 실행되며, 1단계에서는 리더 모델의 파라미터는 고정된 상태로 유지되고 지식 선택기의 가중치만 업데이트됩니다. 반대로 2단계에서는 지식 선택자의 가중치는 고정된 상태로 유지하면서 독자 모델의 파라미터를 조정합니다.

7 양식, 도메인 및 현실을 아우르는 에이전트 AI

7.1 모달 간 이해를 위한 에이전트

시각, 언어, 에이전트 행동이 포함된 대규모 데이터 세트가 부족하기 때문에 범용 AI 에이전트를 만드는 데 있어 멀티모달 이해는 주요 과제입니다. 일반적으로 AI 에이전트를 위한 학습 데이터는 일반적으로 모달리티에 따라 다릅니다. 따라서 대부분의 최신 멀티모달 시스템은 고정된 하위 모듈의 조합을 사용합니다. 주목할 만한 예로는 플라밍고 알레이락 외(2022), BLIP-2 리 외(2023c), LLaVA 리우 외(2023c) 등이 있으며, 모두 고정된 대규모 언어 모델(LLM)과 고정된 시각 코더를 사용합니다. 이러한 하위 모듈은 별도의 데이터 세트에 대해 개별적으로 훈련된 다음 적응 계층이 시각 코더를 대규모 언어 모델(LLM) 임베딩 공간으로 인코딩하도록 훈련됩니다. AI 에이전트의 모달 간 이해를 더욱 발전시키기 위해서는 고정된 LLM과 시각 인코더를 사용하는 전략을 변경해야 할 수도 있습니다. 실제로 최근 시각 언어 모델 RT-2는 로봇과 시각 언어 작업 모두에 시각 인코더와 대규모 언어 모델(LLM)을 공동으로 적용할 때 로봇 영역 내에서 작업을 수행할 때 상당한 성능 향상을 보였습니다(Brohan et al. (2023)).

7.2 도메인 간 이해를 위한 에이전트

일반 에이전트를 제작할 때 가장 어려운 점은 각기 다른 영역의 독특한 시각적 외형과 다양한 액션 공간입니다. 인간은 현실 세계, 비디오 게임, 로봇 공학 및 의료와 같은 전문 영역 등 다양한 소스의 이미지와 동영상을 해당 영역의 세부 사항에 익숙해지면 해석할 수 있습니다. 하지만 기존의 대규모 언어 모델(LLM)과 시각 언어 모델(VLM)은 학습되는 데이터와 적용되는 다양한 도메인 간에 상당한 불일치를 보이는 경우가 많습니다. 특히 특정 행동을 예측하기 위해 에이전트 모델을 학습시키는 것은 여러 도메인에 걸쳐 여러 제어 시스템을 효과적으로 학습할 수 있는 단일 전략을 개발할 때 상당한 어려움을 겪게 됩니다. 일반적으로 특정 도메인 내에서 시스템을 적용할 때 대부분의 최신 작업에서 취하는 접근 방식은 사전 학습된 기본 모델로 시작한 다음 각 특정 도메인에 대해 별도의 모델을 미세 조정하는 것입니다. 이 방식은 도메인 간의 공통점을 포착하지 못하며 각 도메인의 데이터를 활용하기보다는 학습을 위한 총 데이터 세트가 더 작아집니다.

7.3 크로스 모달 및 크로스 리얼리티를 위한 인터랙티브 에이전트

다양한 현실에서 성공적으로 이해하고 작업을 수행할 수 있는 AI 에이전트를 개발하는 것은 지속적인 과제이며, 최근 이미지 및 장면 생성에서 일부 성공을 거두었습니다(Huang et al. (2023a)). 특히 시각적 차이와 환경의 독립적인 물리적 특성으로 인해 에이전트가 현실과 가상 현실 환경을 모두 이해하는 것은 어려운 일입니다. 교차 현실의 맥락에서 시뮬레이션에서 현실로의 마이그레이션은 다음 섹션에서 설명하는 것처럼 시뮬레이션으로 훈련된 전략을 사용하여 실제 데이터를 처리할 때 특히 중요한 문제입니다.

7.4 시뮬레이션에서 현실로의 마이그레이션

시뮬레이션에서 훈련된 모델을 실제 세계에 배포할 수 있는 기술입니다. 특히 강화 학습(RL) 전략에 기반한 구현 에이전트는 시뮬레이션 환경에서 훈련되는 경우가 많습니다. 이러한 시뮬레이션은 실제 세계의 특징(예: 간섭, 빛, 중력 및 기타 물리적 속성)을 정확히 복제하지는 않습니다. 시뮬레이션과 현실의 이러한 차이로 인해 시뮬레이션에서 훈련된 모델은 실제 환경에 적용했을 때 제대로 작동하지 않는 경우가 많습니다. 이 문제를 '시뮬레이션과 현실의 차이'라고 합니다. 이 문제를 해결하기 위해 취할 수 있는 몇 가지 접근 방식이 있습니다:

  • 도메인 무작위 배정도메인 무작위화는 실제 세계의 불확실성과 변화에 대처하기 위해 시뮬레이션 환경에서 매개변수(예: 물체 모양, 센서 노이즈, 광학 특성)를 무작위로 변경하면서 모델을 훈련하는 기법 Tobin 등(2017). 예를 들어, 강화 학습(RL) 기반 파악 기술을 훈련할 때 물체 모양에 무작위성을 도입하면 모양이 약간 다른 물체에 적응할 수 있습니다(사이토 외. (2022)).
  • 도메인 적응도메인 적응 또는 도메인 마이그레이션은 많은 수의 시뮬레이션 이미지와 적은 수의 실제 이미지를 사용하여 모델을 훈련함으로써 시뮬레이션 도메인과 실제 도메인 간의 격차를 해소하는 기법입니다. 실제 설정에서는 도메인 간에 페어링된 이미지를 준비하기 어렵기 때문에 CycleGAN Zhu 외(2017b)와 같은 비페어링 이미지 간 변환 방법을 사용합니다. 강화 학습의 여러 향상된 버전이 존재하는데, 여기에는 강화 학습-CycleGAN Rao 외(2020)와 모방 학습의 향상된 버전(예: RetinaGAN Ho 외(2021))이 포함됩니다.
  • 향상된 시뮬레이션현실적인 시뮬레이션은 시뮬레이션에서 현실로의 마이그레이션의 핵심입니다. 이 작업의 일부는 실제 환경을 모방하기 위한 시뮬레이션 매개변수를 식별하는 것을 목표로 하는 시스템 식별 기법 Zhu 등(2017c), Allevato 등(2020)을 통해 이루어집니다. 또한, 사실적인 시뮬레이터를 사용하면 이미지 기반 강화 학습에 효과적일 수 있습니다 Martinez-Gonzalez 외. (2020); Müller 외. (2018); Shah 외. (2018); Sasabuchi 외. (2023).

방법이 계속 발전함에 따라 시뮬레이션에서 현실로의 마이그레이션은 구현된 에이전트 연구의 핵심 과제로 남아 있습니다. 이러한 기술을 더욱 발전시키기 위해서는 이론적 및 실증적 연구가 필수적입니다.

8 상담원 AI의 지속적인 자기 개선

현재 기본 모델 기반 AI 에이전트는 다양한 데이터 소스로부터 학습할 수 있어 보다 유연한 학습용 데이터 소스를 제공합니다. 이를 통해 얻을 수 있는 두 가지 주요 결과는 (1) 사용자와 사람 기반의 상호작용 데이터를 사용하여 에이전트를 더욱 개선할 수 있고, (2) 기존 기본 모델과 모델 인공물을 사용하여 학습 데이터를 생성할 수 있다는 것입니다. 다음 섹션에서 각각에 대해 자세히 설명하지만, 현재 AI 에이전트는 주로 사전 학습된 기존 기본 모델과 연결되어 있기 때문에 일반적으로 환경과의 지속적인 상호 작용을 통해 학습하지 않습니다. 우리는 이것이 흥미로운 미래 방향이라고 생각하며, Bousmalis 등의 예비 연구에 따르면 로봇 제어를 위한 자기 개선 에이전트는 감독 없이도 환경과의 상호작용을 통해 지속적으로 학습하고 개선할 수 있다고 합니다(Bousmalis 등, 2023).

8.1 인간 기반 상호작용 데이터

인간 기반 상호작용 데이터를 사용하는 핵심 아이디어는 대량의 상담원-인간 상호작용을 사용하여 향후 반복을 위해 상담원을 훈련하고 개선하는 것입니다. 인간과 인간의 상호작용을 통해 에이전트를 개선하는 데 사용할 수 있는 몇 가지 전략이 있습니다.

  • 추가 학습 데이터인간과 컴퓨터의 상호작용을 사용하는 가장 간단한 방법은 상호작용 예제 자체를 향후 에이전트의 반복을 위한 트레이닝 데이터로 사용하는 것입니다. 이를 위해서는 일반적으로 성공적인 상담원 예시와 실패한 상호작용 예시를 구분하기 위한 필터링 전략이 필요합니다. 필터링은 규칙 기반(예: 원하는 최종 목표 상태에 도달하기 위해), 모델 기반(예: 성공적인 상호작용과 실패한 상호작용을 분류하기 위해) 또는 사후 검사 및/또는 상호작용 예제 수정 후 수동으로 선택할 수 있습니다.
  • 인간 선호도 학습사용자와 상호작용하는 동안 상담원 시스템은 사용자에게 여러 가지 모델 출력을 제시하고 사용자가 가장 적합한 출력을 선택할 수 있도록 할 수 있습니다. 이는 일반적으로 ChatGPT 및 GPT-4와 같은 대규모 언어 모델(LLM)에 사용되며, 사용자는 여러 가지 중에서 자신의 기본 설정에 가장 잘 맞는 출력을 선택할 수 있습니다.
  • 안전 교육(레드팀 훈련)에이전트 AI의 맥락에서 레드팀 연습이란 에이전트 AI 시스템의 약점과 취약점을 악용하고 노출시키려는 전담 적대적 팀(사람 또는 컴퓨터)을 구성하는 것을 말합니다. 본질적으로 적대적이지만 레드팀 연습은 종종 AI 보안 조치를 개선하고 유해한 결과물의 발생을 줄이는 방법을 이해하기 위한 수단으로 사용됩니다. 핵심 원칙은 원치 않는 에이전트 출력을 유도하는 일관된 방법을 발견하여 이러한 동작을 명시적으로 수정하는 데이터로 모델을 학습시키는 것입니다.

8.2 기본 모델에서 생성된 데이터

학계와 업계에서 강력한 기본 모델 인공물을 생성함에 따라, 다양한 큐잉 및 데이터 페어링 기술을 사용하여 이러한 인공물에서 의미 있는 학습 데이터를 추출하고 생성하는 방법이 개발되었습니다.

  • LLM(대규모 언어 모델) 명령어 튜닝학습 데이터를 따르는 대규모 언어 모델(LLM)에서 명령을 생성하는 방법을 사용하면 더 큰 독점 LLM의 출력을 기반으로 더 작은 오픈 소스 모델을 미세 조정할 수 있습니다(Wang et al. (2023)과 Vicuna Zheng(2023)의 예를 들어, 알파카 타오리(2023)와 비쿠나 정(2023)은 오픈 소스 LLaMA 계열의 Touvron 외(2023)의 대규모 언어 모델(LLM)을 기반으로 하며, ChatGPT와 인간 참가자의 다양한 출력을 기반으로 튜닝되었습니다. 이러한 교육 튜닝 접근 방식은 대규모 언어 모델(LLM)이 소규모 학생을 위한 교사 모델 역할을 하는 지식 증류의 한 형태로 볼 수 있습니다. 중요한 것은 대규모 언어 모델(LLM) 인스트럭션 튜닝이 교사 모델의 쓰기 스타일과 일부 인스트럭션 추종 능력을 학생 모델에 전달할 수 있다는 사실이 밝혀졌지만, 교사 모델과 학생 모델의 진정성과 역량 사이에는 여전히 상당한 차이가 있다는 것입니다(Gudibande 외. (2023).
  • 시각적-언어적 쌍시각 콘텐츠에 대한 캡션과 기타 텍스트를 자동으로 생성하여 시각 언어 모델링(VLM)에 사용할 수 있는 사전 학습 데이터의 양과 다양성을 늘리려는 시도가 최근 일부에서 이루어지고 있습니다. 예를 들어, LLaVA Liu 등(2023c)은 주로 대규모 언어 모델(LLM)에서 생성된 텍스트 및 시각적 입력에서 명령 따르기 행동의 150,000개 예시를 사용했습니다. 다른 연구에서는 시각 언어 모델(VLM)을 사용하여 이미지에 라벨을 다시 붙이면 학습 데이터와 후속 이미지 생성 모델의 품질을 향상시킬 수 있다는 것을 보여주었습니다(Segalis et al. 비디오 이해 분야에서 시각 언어 모델(VLM)과 대규모 언어 모델(LLM)을 사용하여 비디오를 라벨링하면 라벨링된 비디오에서 학습된 후속 시각 언어 모델(VLM)의 성능과 품질이 향상되는 것으로 나타났습니다(Wang et al.

9 상담원 데이터 세트 및 리더보드

이 분야의 연구를 가속화하기 위해 멀티 에이전트 게임과 에이전트 기반 시각 언어 작업에 대한 두 가지 벤치마크를 각각 제안합니다. 두 가지 새로운 데이터 세트인 "CuisineWorld"와 "VideoAnalytica"와 기준 모델 세트를 공개할 예정입니다. -참가자들은 기준 모델 세트뿐만 아니라 새로운 모델과 시스템을 탐색하고 그 결과를 리더보드의 테스트 세트에 제출하도록 권장됩니다.

9.1 멀티 에이전트 게임용 "CuisineWorld" 데이터 세트

퀴진월드는 오버쿠킹과 유사한 텍스트 기반 게임입니다! 이 게임은 AI 기반 에이전트가 협력하고 함께 플레이할 수 있는 플랫폼을 제공합니다. 이 데이터 세트는 다중 에이전트 시스템의 협업 효율성을 테스트하여 대규모 언어 모델(LLM)과 다른 시스템이 동적 시나리오에서 함께 작동하는 능력에 대한 인사이트를 제공합니다. 특히 이 데이터 세트는 에이전트가 목표를 이해하는 방식과 에이전트가 서로 협력하는 방식에 초점을 맞출 것입니다. 이 데이터 세트는 중앙 집중식 스케줄러 모드와 분산식 모드의 두 가지 모드를 지원합니다. 참가자는 게임 모드를 선택하고 결과를 리더보드에 제출할 수 있습니다.

9.1.1 벤치마크

이번 대회에서는 확장 가능한 작업 정의 파일과 다중 에이전트 상호 작용 및 인간과 컴퓨터의 상호 작용을 위한 인터페이스를 포함하는 텍스트 인터페이스가 포함된 CuisineWorld 벤치마크를 공개할 예정입니다. 협업 효율성을 극대화하는 적절하고 적절한 멀티 에이전트 협업 전략을 생성하는 것이 목표인 게임 인터랙션 작업을 소개합니다. 제안된 평가 지표인 CoS를 사용하여 협업 효율성을 평가합니다.

"CuisineWorld" 데이터 세트는 Microsoft, UCLA, 스탠포드 대학교에서 수집했습니다. 이 대회의 목표는 이 벤치마크에서 기본 LLM(대규모 언어 모델)에 기반한 다양한 기존 및 새로운 인터랙션 기술이 어떻게 작동하는지 살펴보고 멀티 에이전트 게임 인프라의 작업에 대한 강력한 기준선을 설정하는 것입니다.

CuisineWorld의 데이터 세트에는 다음이 포함됩니다:

  • 잘 정의된 다중 에이전트 협업 작업 집합입니다.
  • 상담원 상호 작용을 용이하게 하기 위한 API 시스템입니다.
  • 자동화된 평가 시스템.

(데이터 세트 다운로드 링크는 곧 제공될 예정이며, 이 글은 여기에 포함되도록 업데이트될 예정입니다.)

9.1.2 작업

  • Microsoft는 데이터 세트와 관련 벤치마크인 Microsoft MindAgent를 제공하며, 이에 따라 연구 커뮤니티에 데이터 세트 'CuisineWorld'를 공개합니다.
  • 제출된 "마인드에이전트" 알고리즘을 평가하고 순위를 매길 수 있는 벤치마크를 제공할 예정입니다. 또한 널리 사용되는 인프라를 사용하여 생성된 기준 결과도 제공할 예정입니다.

9.1.3 지표 및 판단 기준

멀티 에이전트 협업 효율성의 품질은 새로운 "cos" 자동화된 지표(MindAgent Gong et al. (2023a))에 의해 결정됩니다. 메트릭의 최종 점수는 모든 작업에서 멀티 에이전트 시스템이 평가한 협업 효율성 메트릭의 평균으로 계산됩니다. 인간 평가자는 개별 응답을 평가하고 사용자-상담원 상호 작용의 참여도, 폭, 전반적인 품질에 대한 주관적인 판단을 제공하도록 요청받게 됩니다.

9.1.4 평가

  • 자동화된 평가출시일(미정)에 리더보드 게시를 시작할 계획입니다. 출시일(미정)에 리더보드 게시를 시작할 계획이며, 등록된 참가자는 'CuisineWorld' 데이터 세트(리더보드용으로 공개하는 데이터 세트)와 관련된 과제에 대한 결과를 제출해야 합니다. 결과 제출은 종료일(미정)에 마감됩니다. 각 팀은 테스트 세트에서 생성한 결과를 제출해야 "코스" 메트릭을 자동으로 평가할 수 있습니다.
  • 차트에서 수동 평가. 리더보드 참가자는 로컬 평가 스크립트에 의해 생성된 제출 파일을 제공해야 합니다. 제출된 파일은 evalAI 시스템을 통해 확인되며, 상위 챌린지 참가자를 대상으로 코드를 다시 실행할 수 있는 옵션이 제공됩니다. 따라서 팀은 코드를 실행한 방법에 대한 자기 설명 파일과 함께 코드를 제출해야 합니다. 수동 평가는 주최 측에서 수행합니다.
  • 당첨자 발표. 수상자를 발표하고 제출된 작품의 최종 평점을 순위표에 게시할 예정입니다.

9.2 오디오-비디오 언어 사전 교육 데이터 세트.

비디오 프레젠테이션의 이해도를 분석하기 위한 새로운 벤치마크인 VideoAnalytica를 소개합니다.VideoAnalytica는 긴 형식의 교육용 비디오에 포함된 복잡하고 높은 수준의 추론을 더 잘 이해하기 위한 보조 수단으로 비디오 프레젠테이션을 사용하는 데 초점을 맞추고 있습니다. 비디오 언어 모델의 인지적 추론 능력을 평가하여 단순한 인식 작업과 기본적인 이해를 넘어 비디오에 대한 보다 복잡하고 미묘한 이해로 나아가는 것이 목표입니다. 결정적으로 VideoAnalytica는 여러 양식(예: 오디오, 비디오, 언어)의 통합과 비디오에 제시된 정보를 이해하고 해석하기 위해 도메인별 지식을 적용할 수 있는 모델의 능력을 강조합니다. 특히 VideoAnalytica는 두 가지 주요 작업을 처리합니다:

  1. 1.
    동영상 텍스트 검색: 이 작업에는 교육용 비디오에서 관련 텍스트를 정확하게 검색하는 것이 포함되었습니다. 관련성 있는 정보와 관련성 없는 정보를 구분해야 하므로 동영상 콘텐츠에 대한 심층적인 이해가 필요하고 올바른 쿼리를 검색하기 위해 프레젠테이션을 분석해야 합니다. 이러한 작업의 복잡성을 더욱 높이기 위해 데이터 세트에 대규모 언어 모델(LLM)로 생성된 하드 네거티브 예시를 도입했습니다. 생성된 부정 예시를 수동으로 검증하고 작업을 유효하지 않고 불공정하게 만드는 인스턴스를 제거합니다(예: 부정 예시는 유효함).
  2. 2.
    동영상을 활용한 유익한 퀴즈: 이 과제에서는 모델이 동영상에서 추출한 정보를 바탕으로 질문에 답해야 합니다. 분석적 추론과 비디오 프레젠테이션에 대한 철저한 이해가 필요한 복잡한 질문에 중점을 둡니다.

비디오 이해도 분석을 위한 오디오-비디오-언어 에이전트 개발을 용이하게 하기 위해 VideoAnalytica에서 두 가지 작업에 대한 벤치마크 리더보드를 도입했습니다.

  • 리더보드 참가자는 평가를 위해 자신의 솔루션을 제출해야 합니다. 평가는 두 가지 과제에 대한 모델의 성능을 기반으로 이루어지며 결과는 리더보드에 표시됩니다. 참가자는 자신의 코드와 함께 접근 방식 및 방법론에 대한 자세한 설명을 제출해야 합니다.
  • 윤리적 고려 사항: 이 순위의 초점은 감시 또는 기타 개인 정보를 침해하는 애플리케이션에 사용될 수 있는 동영상 콘텐츠를 이해하고 해석하는 데 있습니다. 따라서 기술의 윤리적 영향과 잠재적인 오용 가능성을 고려하는 것이 중요합니다. 참가자들은 출품작을 제출할 때 이러한 측면을 고려하고 AI의 윤리적 사용을 장려할 것을 권장합니다.

10 광범위한 영향 성명서

이 백서와 관련 포럼(^6^^^6^https://multimodalagentai.github.io)은 혁신적인 연구를 위한 촉매제가 되어 협업을 촉진하고 AI 도입의 다음 물결을 주도하는 것을 목표로 합니다. 다중 모드 지능에 중점을 두어 인간과 컴퓨터의 상호작용, 리더보드 및 솔루션의 미래 방향을 강조합니다. 더 넓은 커뮤니티에 중요한 기여를 하고 있는 세 가지 영역을 자세히 소개합니다.

무엇보다도, 저희 포럼을 통해 AI 연구자들이 게임, 로봇 공학, 의료, 긴 형식의 동영상 이해와 같은 실제 문제에 대한 솔루션을 개발할 수 있기를 바랍니다. 특히 게임에서 다중 모드 지능의 개발은 더욱 몰입감 있고 개인화된 게임 경험으로 이어져 게임 산업을 변화시킬 수 있습니다. 로봇 공학에서는 적응형 로봇 시스템의 개발로 제조업에서 농업에 이르기까지 다양한 산업에 혁명을 일으켜 노동력 부족 문제를 해결하고 효율성을 높일 수 있습니다. 의료 분야에서는 진단 인텔리전스 또는 환자 치료 보조 도구로 대규모 언어 모델(LLM)과 시각 언어 모델(VLM)을 사용하면 보다 정확한 진단, 환자 치료 개선, 특히 의료 서비스가 취약한 지역의 의료 서비스 접근성 향상으로 이어질 수 있습니다. 또한 이러한 모델이 긴 동영상을 해석하는 능력은 온라인 학습 향상부터 기술 지원 서비스 개선에 이르기까지 다양한 용도로 활용될 수 있습니다. 전반적으로 포럼에서 다루는 주제는 전 세계 산업과 인류에게 상당한 영향을 미칠 것입니다.

둘째, 저희 포럼이 AI 실무자와 연구자들에게 유용한 자료가 되어 다양한 환경과 맥락에서 AI 지능을 구현할 때 나타나는 다양하고 복잡한 리더보드에 대해 더 깊이 이해하고 탐구할 수 있는 플랫폼이 되기를 바랍니다. 이러한 탐색에는 예를 들어 의료 진단과 같은 특정 영역을 위해 개발된 에이전트 AI 시스템의 특정 한계와 잠재적 위험에 대한 이해가 포함됩니다. 이 영역에서는 AI 행동의 위험한 환각과 같은 문제가 심각한 위험을 초래할 수 있으므로 신중한 설계와 테스트의 중요성이 강조됩니다. 그러나 게임 산업을 위해 만들어진 인공지능을 고려할 때 이러한 특정 순위는 관련성이 떨어지거나 명확하지 않을 수 있습니다. 이러한 엔터테인먼트 영역에서 개발자는 예측할 수 없는 게임 시나리오와 플레이어의 상호작용에 동적으로 적응하면서 보다 개방적인 생성을 수행하고 창의성을 발휘해야 하는 등 다양한 장애물을 우선순위로 삼을 수 있습니다. 포럼에 참석하면 이러한 다양한 환경이 AI 개발의 초점과 방향을 어떻게 결정하는지, 그리고 이러한 다양한 요구 사항을 충족하고 관련 리더보드를 극복하기 위해 AI 솔루션을 가장 잘 적용하는 방법에 대한 인사이트를 얻을 수 있습니다.

셋째, 전문가 발표, 유익한 포스터, 두 개의 리더보드 수상작을 포함한 다양한 행사 요소는 복합 지능 분야의 최신 중요 동향, 연구 방향, 혁신적인 개념에 대한 실질적이면서도 간결한 개요를 제공하도록 설계되었습니다. 이 프레젠테이션에서는 주요 연구 결과와 발전 사항을 요약하여 복합 지능을 위한 AI 분야의 새로운 시스템, 아이디어 및 기술을 소개합니다. 이 지식 모음은 해당 분야에 대한 이해와 전문성을 심화하고자 하는 포럼 참석자에게 유익할 뿐만 아니라 역동적이고 풍부한 리소스 저장소 역할을 할 것입니다. 포럼 웹사이트 방문자는 이 정보 저장소를 통해 복합 지능을 위한 AI의 미래를 주도할 최첨단 발전과 혁신적인 아이디어를 발견하고 이해할 수 있습니다. 이 분야의 초보자와 베테랑 모두에게 유용한 지식 기반이 될 수 있도록 노력하고 있습니다. 이러한 리소스를 통해 참가자와 온라인 방문자 모두가 복합 지능 AI의 흥미로운 환경을 형성하고 있는 혁신적인 변화와 새로운 접근 방식에 대해 배울 수 있기를 바랍니다.

11 윤리적 고려 사항

멀티모달 AI 시스템에는 다양한 애플리케이션이 있습니다. 대화형 AI 외에도 기본적인 멀티모달 모델은 로봇과 AI 지능을 위한 콘텐츠 생성을 촉진하고 재생, 의역, 동작 예측 또는 3D 또는 2D 장면 합성을 지원하는 생산성 애플리케이션에 도움이 될 수 있습니다. 지능형 신체 AI의 근본적인 발전은 이러한 목표를 달성하는 데 도움이 되며, 많은 사람들이 시뮬레이션 현실이나 실제 세계에서 신체와 공감을 모델링하는 방법을 더 잘 이해함으로써 이점을 얻을 수 있습니다. 이러한 애플리케이션 중 상당수는 긍정적인 효과를 가져올 수 있을 것입니다.

하지만 이 기술은 악의적인 공격자들에 의해 악용될 수도 있습니다. 콘텐츠를 생성하는 지능형 AI 시스템은 사람들을 조작하거나 속이는 데 사용될 수 있습니다. 따라서 이 기술은 책임감 있는 AI 가이드라인에 따라 개발되는 것이 중요합니다. 예를 들어, 사용자에게 콘텐츠가 AI 시스템에 의해 생성되었음을 명확히 알리고 사용자에게 해당 시스템을 사용자 지정할 수 있는 제어 권한을 제공해야 합니다. 지능형 신체 AI는 조작 콘텐츠를 탐지하는 새로운 방법을 개발하는 데 사용될 수 있는 잠재력을 가지고 있으며, 부분적으로는 대규모 기본 모델의 풍부한 환각 특성을 가지고 있기 때문에 현실 세계의 다른 문제를 해결하는 데 도움이 될 수 있습니다.

예를 들어, 1) 건강 주제, 특히 의료와 같은 민감한 영역에서는 대규모 언어 모델링(LLM) 및 시각 언어 모델링(VLM) 인텔리전스를 윤리적으로 배치하는 것이 매우 중요합니다. 편향된 데이터로 학습된 AI는 취약 계층에게 부정확한 진단을 제공함으로써 건강 격차를 악화시킬 수 있습니다. 또한 인공지능이 민감한 환자 데이터를 처리하는 것은 심각한 개인정보 및 기밀성 문제를 야기할 수 있습니다.2) 게임 산업에서 인공지능은 비플레이어 캐릭터 스크립팅에서 인공지능의 학습 프로세스 개선으로 초점을 전환함으로써 개발자의 역할을 변화시킬 수 있습니다. 마찬가지로 적응형 로봇 시스템은 제조업의 역할을 재정의하여 인간 작업자를 대체하기보다는 새로운 기술을 요구할 수 있습니다. 이러한 변화에 대한 책임감 있는 대응은 잠재적인 사회경제적 혼란을 최소화하는 데 필수적입니다.

또한, 지능형 신체 AI의 초점은 시뮬레이션을 통해 협업 전략을 학습하는 것인데, 이러한 전략은 분포 편향으로 인해 실제 세계에 직접 적용될 경우 위험할 수 있습니다. 실제 시나리오에서 예측할 수 없는 행동의 위험을 최소화하기 위해 강력한 테스트와 지속적인 보안 모니터링 메커니즘을 구축해야 합니다. "VideoAnalytica" 데이터 세트는 인터넷에서 수집한 것으로, 완전한 대표성이 있는 출처가 아니기 때문에 Microsoft와 워싱턴 대학의 윤리적 검토 및 법적 절차를 완료했습니다. 그럼에도 불구하고 말뭉치에서 발생할 수 있는 편향성에 유의해야 합니다. 데이터 분포는 여러 가지 방식으로 특성화될 수 있습니다. 이번 워크숍에서 우리는 데이터 세트의 지능 수준 분포와 다른 기존 데이터 세트의 차이점을 파악했습니다. 그러나 데이터 세트나 워크샵에 포함할 수 있는 것은 훨씬 더 많습니다. 실제 업무나 주제와 관련된 더 많은 방법이나 토론이 필요하며, 이러한 데이터나 시스템을 공개할 필요가 있다고 생각합니다.

저희는 프로젝트의 일부를 이러한 윤리적 문제를 논의하고, 잠재적인 완화 전략을 모색하며, 책임감 있는 다중 모달 AI 인텔리전스를 배포하는 데 할애할 것입니다. 이 백서를 통해 더 많은 연구자들이 이러한 질문에 답하는 데 도움이 되기를 바랍니다.

12 다양성 선언문

다양한 영역에서 AI 지능형 신체 모델의 적응성을 조사함으로써 자연스럽게 다양한 순위, 관점 및 솔루션을 수용합니다. 이러한 정신으로 멀티모달 및 지능형 신체 AI의 다양한 주제를 탐구하여 다양한 커뮤니티를 구축하는 것을 목표로 합니다.

이러한 원칙을 염두에 두고 이 프로젝트는 물리적 및 가상 환경에서 효과적으로 상호 작용하고 인간과의 효과적인 상호작용을 촉진하는 첨단 멀티모달 시스템에 초점을 맞추고 있습니다. 따라서 다양한 기술 전문 분야, 문화, 국가 및 학문 분야의 전문가와 실무자를 초청하여 다음과 같은 중요한 주제를 논의하고자 합니다:

  • 기본 모델의 적용: 다양한 애플리케이션에 대한 인식 및 응답을 향상시키기 위해 통합된 양식(오디오, 이미지, 텍스트, 센서 입력)을 갖춘 인텔리전스를 개발합니다.
  • 일반 엔드투엔드 시스템: 일반적이고 적응 가능한 AI 솔루션을 만들기 위해 대규모 데이터를 사용하여 학습된 엔드투엔드 모델을 개발합니다.
  • 모달 접지의 원칙: 다양한 모달의 정보를 통합하여 데이터 처리의 일관성과 효율성을 향상시킵니다.
  • 직관적인 인간-컴퓨터 인터페이스: 인간과 인텔리전스 간의 효과적이고 의미 있는 상호작용을 개발합니다.
  • 대규모 언어 모델(LLM)/시각 언어 모델(VLM) 길들이기: 착시 현상과 출력의 편향성 등 대규모 모델의 일반적인 문제를 해결하는 새로운 방법을 모색합니다.

저희는 독특하고 다양한 관점을 활용하여 지능을 위한 AI의 잠재력과 한계에 대한 집단적 이해의 폭을 넓히고자 합니다. 이러한 접근 방식이 개인의 관점을 풍부하게 할 뿐만 아니라 커뮤니티의 집단적 지식을 향상시키고 다중 모드 AI 지능이 직면한 광범위한 리더보드에 대한 보다 포괄적인 관점을 조성할 수 있다고 굳게 믿습니다.

부록 AGPT-4V 에이전트 팁 세부 정보

별도의 언급이 없는 한 GPT-4V의 기본 시스템 프롬프트를 사용합니다. 그림 31에서는 Minecraft 게임에서 GPT-4V를 프롬프트하는 과정과 GPT-4V의 응답을 생성하는 방법을 자세히 설명합니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 31: Minecraft 동영상에 대한 GPT-4V 호출의 전체 힌트 프로세스를 보여주는 코드 스니펫을 제공합니다. 먼저 비디오의 프레임을 인코딩한 다음 GPT-4V 엔드포인트를 호출합니다. 모델의 응답이 화면 하단에 표시됩니다.

블리딩 엣지용 부록 BGPT-4V

블리딩 엣지는 3인칭 팀 기반 전투 게임으로, 플레이어는 목표 지점을 점령하거나 적 팀보다 더 많은 자원을 모으기 위해 노력합니다. 그림 32에는 블리딩 엣지 게임플레이를 위해 GPT-4V를 큐잉할 때 입력과 출력의 예가 나와 있습니다. Minecraft에 비해 GPT-4V는 시각적 콘텐츠와 게임 규칙에 대한 이해도가 낮다는 것을 질적으로 확인했습니다. 이는 (1) GPT-4V의 훈련 데이터에 포함된 많은 양의 Minecraft 데이터와 (2) Minecraft에 비해 Bleeding Edge의 시각적 복잡도가 더 높기 때문일 수 있습니다.

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 32: GPT-4V는 3인칭 시점과 시각적으로 복잡한 장면이 있는 블리딩 엣지 같은 게임에서 의미 있는 콘텐츠를 생성할 수 있습니다. 많은 수의 프레임(48개)을 GPT-4V에 공급하기 위해 이러한 프레임을 그리드 형태로 공급하고 각 프레임에 프레임 번호를 중첩했습니다(위 그림 참조).

마이크로소프트 플라이트 시뮬레이터용 부록 CGPT-4V

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 33: GPT-4V는 Microsoft Flight Simulator 게임에 대한 의미 있는 콘텐츠 설명을 생성할 수 있습니다. 비행 시뮬레이터의 플레이어가 항공기를 조종하는 동안 GPT-4V 에이전트는 조종석 보기와 항공기 외부 보기를 통해 동작에 대한 높은 수준의 설명을 제공하고 가상 공역을 탐색하는 동안 적절한 비행 속도와 고도를 유지하기 위해 다양한 비행 제어 및 계기를 관리할 수 있습니다. 대용량 영상을 입력하기 위해 여러 개의 키프레임(6프레임)을 선택해 GPT-4V로 전송하며, 위 그림과 같이 메시를 사용하지 않고 각 키프레임을 개별적으로 입력합니다.

그림 33에서 볼 수 있듯이 GPT-4V 기반 에이전트는 Microsoft Flight Simulator에서 플레이어의 동작에 대한 높은 수준의 설명을 제공합니다. 플레이어가 조종석 보기와 항공기의 외부 보기를 통해 항공기를 조종하고 다양한 비행 제어 및 계기를 관리하여 적절한 비행 속도와 고도를 유지하면서 가상 영공을 탐색하는 방법을 설명합니다.

어쌔신 크리드: 오디세이용 부록 DGPT-4V

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 34: GPT-4V는 어쌔신 크리드: 오디세이 게임에 대한 의미 있는 콘텐츠 설명을 생성할 수 있습니다. 또한 GPT-4V 기반 에이전트는 "이미지 속 캐릭터는 역사적인 캠페인에서 야간 전투에 참여하고 창을 휘두르며 '불 러쉬'와 같은 특수 능력을 활용하고 레벨 표시기가 있는 여러 적과 싸우면서 3인칭 액션으로 생명력과 능력치를 관리하고 있다"는 등의 높은 수준의 액션 설명을 제공할 수 있습니다. 3인칭 액션 롤플레잉 게임에서 생명력과 능력치 관리". 큰 영상을 입력하기 위해 여러 개의 키프레임(8프레임)을 선택하여 GPT-4V로 전송하고, 그리드를 사용하지 않고 각 키프레임을 개별적으로 입력합니다(위 이미지와 같이).

그림 34에서 볼 수 있듯이 GPT-4V 에이전트는 이미지 속 캐릭터가 역사 캠페인에서 야간 전투에 참여하고, 창을 휘두르며 '불 러쉬' 같은 특수 능력을 사용하고, 레벨 표시기가 있는 다수의 적과 싸우고, 3인칭 액션 롤플레잉 게임에서 생명력과 능력치를 관리하는 등 높은 수준의 액션 묘사를 제공합니다. GPT-4V에서는 플레이어가 대규모 근접 전투 시나리오에 참여하여 갑옷에 붉은색 액센트가 있는 캐릭터를 조종하고 화면의 지시에 따라 '불 러쉬 능력'을 사용하는 장면이 묘사됩니다. 배경은 어둡고 화염으로 가득 차 있어 전장을 연상시키며, 플레이어의 캐릭터는 레벨 표시기와 머리 위 피 막대가 있는 여러 적과 대치하고 있습니다. 이 액션은 플레이어가 전투 능력을 배우고 수행하는 튜토리얼 또는 전투 시퀀스의 일부입니다.

 

기어스 오브 워 4용 부록 EGPT-4V

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 35: GPT-4V는 기어스 오브 워 4 게임에 대한 의미 있는 콘텐츠 설명을 생성할 수 있습니다.GPT-4V 에이전트는 플레이어가 산업 또는 군사 단지를 연상시키는 시각적으로 풍부한 미래 환경에서 전투 시나리오에 참여하고 있다는 액션에 대한 높은 수준의 설명, 즉 액션에 대한 높은 수준의 설명을 제공합니다. 갑옷을 입고 총기를 장착한 캐릭터가 엄폐물과 조준 시스템을 사용하여 적과 교전하면서 지역을 탐색하고 있습니다. 캡처된 동작에는 플레이어 캐릭터가 엄폐물 뒤에서 조준하고, 적을 쏘고, 화면의 시각적 신호에 따라 피해를 입으며, 근접 전투를 벌이는 모습이 포함됩니다. 환경은 야간 조명으로 표시되며, 인공 광원이 관심 있는 영역이나 행동을 강조합니다. 특정 순간에는 플레이어의 캐릭터가 투명한 실루엣으로 나타나며, 이는 무적이나 은신과 같은 특수 능력이나 일시적인 상태를 나타낼 수 있습니다. 큰 영상을 입력하기 위해 여러 개의 키프레임(10프레임)을 선택해 GPT-4V로 전송하고, 그리드를 사용하지 않고 각 키프레임을 개별적으로 입력합니다(위 그림 참조).

그림 35에 표시된 바와 같이, 제공된 10프레임 비디오 시퀀스를 기반으로 GPT-4V 에이전트는 비디오 게임에서 플레이어의 움직임에 대한 일반적인 설명을 제공할 수 있습니다:

"플레이어는 밤에 산업 환경을 돌아다니며 상자나 벽 등 다양한 물체 뒤에 전략적으로 숨어 캐릭터를 탐색합니다. 캐릭터는 무기로 무장하고 적과 교전합니다. 플레이어는 총기를 사용하며 근접 전투에서와 같이 근접 공격을 사용할 수도 있습니다. 화면의 시각적 신호(일반적으로 캐릭터가 피해를 받고 있음을 나타내는 빨간색 표시등이 깜박이는 등)로 탄약과 생명력을 관리하는 것처럼 보입니다.

또한 플레이어는 전술적으로 움직이며 적을 공격하거나 방어하기 위해 여러 엄폐 위치를 전환하는 것처럼 보입니다. 어느 시점에서 방패가 활성화된 것으로 보이는데, 이는 플레이어가 방어 기능을 사용하여 적의 공격에 대응하고 있음을 암시합니다. 또한 캐릭터가 무기를 재장전하는 것처럼 보이는데, 이는 전투 중 자원 관리의 요소를 암시합니다. 피와 충격 효과는 적을 성공적으로 공격했음을 나타냅니다.

플레이어의 캐릭터는 주변에서 비슷한 전투 행동을 하는 다른 캐릭터를 볼 수 있으므로 아군과 협력합니다. 환경에는 플레이어가 유리하게 사용할 수 있는 폭발하는 배럴과 같은 상호 작용 가능한 요소가 있습니다.

시나리오는 상대를 극복하고 게임에서 특정 목표를 달성하기 위한 전략적 이동, 사격 및 상황 인식에 중점을 둔 빠른 속도의 액션을 묘사합니다."

 

별이 빛나는 밤하늘을 위한 부록 FGPT-4V

Agent AI: 探索多模态交互的前沿世界[李飞飞-经典必读]
그림 36: X-Box 콘솔 게임인 스타즈 할로우에 대한 의미 있는 콘텐츠 설명을 생성하는 GPT-4V의 기능.GPT-4V 에이전트는 이 우주 테마 탐험 게임에서 액션에 대한 높은 수준의 설명을 제공합니다. 대용량 비디오를 입력하기 위해 여러 개의 키프레임(10프레임)을 선택하여 GPT-4V로 전송하고, 그리드를 사용하지 않고 각 키프레임을 개별적으로 입력했습니다(위 그림 참조).

그림 36에서 볼 수 있듯이, 스타즈에 제공된 10프레임 비디오 시퀀스를 기반으로 GPT-4V 에이전트는 비디오 게임에서 플레이어의 행동을 전반적으로 묘사합니다. GPT-4V에 따르면, "이 이미지는 스타즈 게임에서 일련의 이벤트를 묘사하며 채굴 환경에서 플레이어의 상호작용을 보여줍니다. 다음은 시퀀스에 대한 설명입니다:

  1. 플레이어는 종유석이 있는 희미한 조명의 지하 동굴에 서서 우주선 같은 장비를 착용한 다른 캐릭터 옆에 서 있습니다. 플레이어는 목표 또는 관심 위치를 나타내는 강조 표시된 웨이포인트를 마주하고 있습니다.
  2. 플레이어가 산업체 내부, 아마도 채굴장 내부를 걸어서 다른 캐릭터에게 다가갑니다. 헤드업 디스플레이(HUD)에 "감독관 린"의 대화가 표시되며, 이는 NPC(비플레이어 캐릭터)와의 상호작용 및 임무 브리핑 또는 업데이트를 나타냅니다.
  3. 플레이어는 NPC 감독관 린을 따라 동굴을 통과하는 것처럼 보이는데, 이는 NPC가 플레이어를 특정 위치나 퀘스트로 안내하는 게임의 가이드 부분을 암시하는 것입니다.
  4. 숲을 담당하는 대화는 '대맥' 자원과 관련된 새로운 목표를 안내할 수 있는 결정 지점이나 퀘스트 업데이트를 암시합니다.
  5. 플레이어는 다시 감독관 린을 만나게 되고, 그는 채굴 임무의 시작이나 새로운 지역의 탐험에 대한 힌트나 금속 매장지에 대한 정보를 제공합니다.
  6. 이 프레임에서 플레이어는 기계를 관찰하거나 기계와 상호 작용하는 것처럼 보이며, 다른 캐릭터인 이사벨은 기기 작동 또는 기술 작업과 관련된 행동이나 대화를 나타냅니다.
  7. 플레이어가 아래를 내려다보면 거친 지형과 두 개의 빛나는 물체가 보이는데, 이는 수집할 자원이나 미션의 관심 지점을 나타낼 수 있습니다.
  8. 플레이어가 헤드업 디스플레이에서 "베릴륨 매장지"라고 표시된 특정 자원을 살펴보면 자원 수집 또는 채굴 활동이 진행 중임을 알 수 있습니다.
  9. 플레이어는 동굴을 걸으며 다른 자원을 찾거나 우주 장비를 착용한 다른 캐릭터가 앞서 보여준 것처럼 다음 목표를 향해 이동합니다.
  10. 플레이어는 동굴의 어두운 영역에서 두 개의 빛나는 마커로 도달할 경로 또는 목표 지점을 표시합니다.

이미지 전체에서 플레이어는 광산 환경에서 탐험, NPC와의 상호작용, 자원 수집, 기계 조작과 같은 임무를 수행하는 것처럼 보입니다. 웨이포인트, 대화 텍스트, 미션 업데이트와 같은 헤드업 디스플레이 요소는 플레이어의 행동과 게임플레이 목표에 대한 맥락을 제공합니다."

 

저자 프로필

제인 듀란테

스탠포드 대학교, 컴퓨터 공학 박사 과정
이메일: durante@stanford.edu
웹사이트: https://zanedurante.github.io/
제인 듀란테는 스탠포드 비전 연구소의 박사 과정 학생으로 페이 페이 리(Fei-Fei Li) 박사의 지도를 받고 있습니다. 그의 연구 분야는 비디오 이해, 컴퓨터 비전과 자연어 연결, 병원 치료에서의 인공 지능 적용 등입니다. 그는 병원 장면의 비디오 클립에 대한 자연어 설명 데이터 세트를 개발하기 위해 스탠포드 의과대학과 스탠포드 비전 랩 간의 지속적인 협업을 이끌고 있습니다. 그의 박사 학위 연구는 국립과학재단의 대학원 연구 펠로우십의 지원을 받고 있습니다.

치위안 황

미국 워싱턴주 레드몬드에 위치한 Microsoft Research의 수석 연구원.
이메일: qihua@microsoft.com
웹사이트: https://www.microsoft.com/en-us/research/people/qihua/
치우위안 황은 워싱턴주 레드몬드에 있는 마이크로소프트 리서치(MSR)의 딥러닝 그룹 수석 연구자입니다. 현재 연구 분야는 딥러닝, 멀티모달리티, 자연어 처리, 특히 게임, 로봇 공학 및 의료용 에이전트 AI, 대화형 AI를 위한 지식 기반 추론 지능, 추론을 위한 신경 기호 계산, NLP 및 멀티모달리티를 위한 대규모 기본 모델에 중점을 두고 있습니다.

나오키 웨이크

워싱턴주 레드몬드에 있는 Microsoft의 한 연구원.
이메일: naoki.wake@microsoft.com
웹사이트: https://www.microsoft.com/en-us/research/people/nawake/
나오키 웨이크는 Microsoft의 응용 로봇 연구 그룹의 연구원입니다. 현재 로봇을 위한 다중 모드 인식 시스템과 협업 음성 제스처 시스템을 개발하는 연구를 진행하고 있습니다. 과거에는 청각 신경과학, 신경 재활, 음성 처리를 연구했으며 2014년 도쿄대학교에서 공학 학사 학위를, 2019년에는 정보 과학 및 기술 박사 학위를 받았습니다.

란 공

UCLA 컴퓨터 과학 박사 과정 학생.
이메일: nikepupu@ucla.edu
웹사이트: https://nikepupu.github.io
랜 공은 UCLA VCLA 연구소의 박사 과정 학생입니다. 그의 연구 분야는 로봇 공학, 컴퓨터 비전, 컴퓨터 그래픽, 머신 러닝의 교차점에 있습니다. 그의 연구는 다양한 환경에서 다양한 작업을 해결하고 인간과 협업할 수 있는 지능형 동작을 만드는 것을 목표로 구현된 시뮬레이션과 상호 작용에 중점을 두고 있습니다. 그는 UCLA에서 컴퓨터 과학 및 공학 학사 학위를 받았습니다.

박재성

워싱턴 대학교 박사 과정 학생
이메일: jspark96@cs.washington.edu
웹사이트: https://homes.cs.washington.edu/~jspark96/
재성은 최예진, 알리 파르하디의 지도를 받고 있는 박사과정 학생입니다. 그의 연구는 멀티모달 상식 추론 모델을 개발하는 데 중점을 두고 있습니다. 그는 언어적 개념을 시각적 양식에 배치하고 인간이 시각 정보를 처리하는 것과 같은 방식으로 멀티미디어 콘텐츠를 이해할 수 있는 기반을 모델에 장착하는 데 관심이 있으며, 버클리 캘리포니아 대학교에서 컴퓨터 과학 학사 학위를 받았습니다.

비딥타 사르카

스탠포드 대학교 학부
이메일: bidiptas@stanford.edu
웹사이트: https://bsarkar321.github.io/
비딥타 사르카는 스탠포드 대학교의 학부생이자 스탠포드 일리아드 연구소의 회원입니다. 그의 연구는 환경과 상호 작용하고 인간 및 다른 자율 에이전트와 안전하게 협력할 수 있는 인공 지능 에이전트를 만드는 데 중점을 두고 있습니다.

로한 타오리

스탠포드 대학교, 컴퓨터 공학 박사 과정
이메일: rtaori@cs.stanford.edu
웹사이트: https://www.rohantaori.com/
로한 타오리는 스탠포드 대학교 인공 지능 연구소의 박사 과정 학생입니다. 그의 연구는 실제 시스템의 맥락에서 머신 러닝의 기초에 초점을 맞추고 있습니다. 최근에는 오픈 소스 대규모 언어 모델의 한계를 뛰어넘어 유용한 범용 비서가 될 수 있도록 미세 조정하고 있으며, 이미지와 동영상에 대해 추론할 수 있도록 멀티모달 기능으로 대규모 언어 모델을 보강하는 데도 관심이 있습니다.Rohan은 캘리포니아 버클리 대학교에서 컴퓨터 과학 학사 학위를 받았습니다.

노다 유스케

수석 소프트웨어 엔지니어, Microsoft 게임, 워싱턴주 레드먼드.
이메일: yusuke.noda@microsoft.com
웹사이트: https://www.linkedin.com/in/yusuke-noda-908797/
노다 유스케는 Microsoft 게임 플랫폼의 수석 소프트웨어 엔지니어입니다. Xbox One 및 Xbox 클라우드 게임용 게임 인프라 개발을 이끌었으며, 클라우드 및 게임 기술을 위한 효율적인 인프라 개발 분야에서 16년 이상의 경력을 보유하고 있습니다.

데메트리 테르조풀로스

UCLA 석좌 교수, 아카데미 수상 경력이 있는 컴퓨터 과학자이자 기업가.
이메일: dt@cs.ucla.edu
웹사이트: https://web.cs.ucla.edu/~dt/
데메트리 테르조풀로스 박사는 UCLA의 컴퓨터 과학 석좌교수이자 총장 석좌교수로 UCLA 컴퓨터 그래픽스 및 비전 연구소를 이끌고 있습니다. 또한 다국적 의료 AI 회사인 복셀클라우드의 공동 창립자이자 수석 과학자이기도 합니다. 구겐하임 펠로우, 런던 왕립학회(FRS) 및 캐나다 왕립학회(FRSC) 펠로우, 컴퓨터 기계학회(ACM) 펠로우, 전기전자공학회(IEEE) 평생 회원, 아시아 태평양 인공 지능 협회(AAIA) 펠로우, 국제 공학 기술 연구소(IETI) 석좌, 유럽 과학 아카데미(EAS) 및 뉴욕 과학 아카데미(NYAS)의 펠로우를 역임했거나 역임 중인 인물입니다. 유럽과학한림원(EAS) 및 뉴욕과학한림원(NYAS) 회원이며 시그마 Xi의 평생 회원입니다.

최예진

와이즈너-슬리바카 석좌 및 브렛 헬셀 워싱턴 대학교 교수, 앨런 인공지능 연구소의 선임 연구 관리자 및 맥아더 펠로우.
이메일: yejin@cs.washington.edu
웹사이트: https://homes.cs.washington.edu/~yejin/
예진은 워싱턴 대학교의 와이즈너-슬리바카 석좌교수 겸 브렛 헬셀 교수이자 앨런 인공지능 연구소의 선임 연구 매니저입니다. 2018년에는 아니타 보그 조기 경력상을 수상했습니다. 그녀는 2020년 맥아더 펠로우 재단 펠로우십을 수상했습니다. AAAI 2020, Neurips 2021, ICML 2022, ACL 2023에서 우수 논문상을, NAACL 2022와 ACL 2023에서 최우수 논문상을 수상했습니다. 그녀는 언어 모델링 연구에 초점을 맞춘 학술 행사인 COLM 2024의 주요 조직자 중 한 명입니다. 주요 연구 분야는 자연어 처리, 기계 학습, 인공지능의 상식적 추론이며, 컴퓨터 비전과 디지털 인문학에도 관심이 많습니다.

페이 페이 리

스탠포드 대학교 컴퓨터 과학 교수
이메일: feifeili@stanford.edu
웹사이트: https://profiles.stanford.edu/fei-fei-li/
페이 페이는 스탠포드 대학교 컴퓨터 과학과의 초대 세쿼이아 교수이자 스탠포드 인간 중심 인공 지능 연구소의 공동 책임자입니다. 2013년부터 2018년까지 스탠포드 인공지능 연구소의 소장을 역임했습니다. 2017년 1월부터 2018년 9월까지 스탠퍼드에서 안식년을 보낸 이 박사는 구글에서 부사장과 구글 클라우드의 인공지능/머신러닝 수석 과학자로 근무했습니다. 이후 여러 상장 및 비상장 기업의 이사회 멤버 또는 고문으로 활동했습니다.

이케우치 카츠시

Microsoft 수석 수석 연구 관리자 및 IEEE 평생 회원. 미국 워싱턴주 레드먼드, Microsoft Research IEEE 평생 회원.
이메일: katsuike@microsoft.com
웹사이트: https://www.microsoft.com/en-us/research/people/katsuike/
이케우치 카츠시 박사는 1973년 교토대학교에서 기계공학 학사 학위를, 1978년 도쿄대학교에서 정보공학 박사 학위를 받았습니다. MIT 인공 지능 연구소에서 3년, 일본 정부 국제 무역 산업부 전자 기술 연구소에서 5년, 카네기 멜론 대학 로봇 공학 연구소에서 10년, 도쿄 대학 산업 과학 연구소에서 19년을 보낸 후 2015년에 수석 연구원으로 Microsoft에 입사했습니다. CMU와 도쿄대학교에서 재직하는 동안 50명 이상의 박사 과정 학생을 지도했습니다.

그의 연구 관심 분야는 컴퓨터 비전, 로봇 공학, 컴퓨터 그래픽입니다. 그는 컴퓨터 비전 분야의 데이비드 마 상, IEEE 로봇 공학 및 자동화 학회 K. S. 푸 기념 최우수 논문상 등 해당 연구 분야에서 여러 차례 최우수 논문상을 수상했습니다.

IROS95, ITSC99, IV01, ICCV05, ACCV07, ICCV17의 총괄 의장, CVPR96, ICCV03, ICRA09, ICPR12, ICCV15의 프로그램 의장, IJCV EIC(2000-2017), IJ ITS EIC(2012-2014), IEEE Trans의 부편집장(부편집장) 등이 대표적이다. EIC(2000-2017), IJ ITS EIC(2012-2014), IEEE Trans. RA, IEEE Trans. PAMI 부편집장; IEEE 신호 처리 학회 2000-2002, IEEE 로봇 및 자동화 학회 2004-2006, IEEE 컴퓨터 학회 2008-2010의 저명한 강연자(Distinguished Lecturer).

이러한 연구와 커뮤니티 봉사를 통해 그는 IEEE, IEICE, IPSJ, RSJ로부터 종신 펠로우십을 받았습니다. IEEE-PAMI로부터 저명한 연구자상, 일본 천황으로부터 퍼플 리본 훈장, 오카와 재단으로부터 오카와 상, 일본 전문 협회로부터 연구 업적에 대한 여러 상을 받았습니다.

호이 보

기술 펠로우. 미국 워싱턴주 레드먼드, Microsoft 게임 및 X-Box 신흥 기술.
이메일: hoiv@microsoft.com
웹사이트: https://www.linkedin.com/in/hoi-vo-193420/
호이 보 씨는 Microsoft 게임 사업부의 기술 연구원으로 AGI와 새로운 게임 IP를 통합하는 데 주력하고 있습니다. 그는 Xbox 클라우드 게임 서비스를 구축하는 데 핵심적인 역할을 담당했으며, Microsoft의 Windows Azure 플랫폼을 비롯한 Microsoft 팀 전반에서 클라우드 및 게임 관련 업무를 이끌었습니다. 그는 다양한 게임 경험을 위해 모델을 미세 조정하는 등 하드웨어의 기능을 넘어서는 시나리오를 처리하기 위해 클라우드를 활용하면서 엣지에서 효율적으로 실행되도록 AI 모델을 최적화하는 데 중점을 두고 있습니다.

지안펑 가오

마이크로소프트의 저명한 과학자 겸 부사장, IEEE 펠로우. 미국 워싱턴주 레드먼드, 마이크로소프트 리서치. IEEE 펠로우.
이메일: jfgao@microsoft.com
웹사이트: https://www.microsoft.com/en-us/research/people/jfgao/
지안펑 가오 박사는 마이크로소프트 리서치의 저명한 과학자이자 부사장이자 IEEE 펠로우, ACM의 저명한 회원이며 현재 마이크로소프트 리서치의 딥러닝 그룹 책임자로, 2014년부터 2017년까지 비즈니스 AI 파트너 연구 관리자로 근무했습니다. 그는 예측 영업 및 마케팅 AI 솔루션 개발을 주도했습니다. 또한 텍스트 및 이미지 처리를 위한 딥 러닝(ACL/SIGIR 2018 자습서, 딥 러닝 2017 자습서, IJCAI 2016 자습서 또는 Microsoft 인트라넷 사이트 참조), 대화, 기계 독해(MRC) 및 질문 답변(QA)을 위한 AI 시스템 개발을 주도했습니다. 2022년부터는 상용 AI 시스템 개발을 위해 LLM(예: ChatGPT/GPT4)을 개선하고 적용하는 자가 개선 AI 연구를 이끌고 있습니다.

 

감사 메모

특히 조언과 든든한 지원, 격려를 아끼지 않은 Peter Lee, Doug Burger, Desney Tan, Johannes Gehrke, Ryen White, Ece Kamar, Subhojit Som, Kareem Choudhry에게 감사의 말씀을 전합니다. 하이얀 장, 스펜서 페로, 데이브 비그넬, 카티아 호프만, 샘 데블린, 샨정 탄, 랄루카 조지쿠, 빌 돌란, 네보사 조직, 수다 라오에게도 감사의 인사를 전합니다, Adrian Brown, 그리고 통찰력 있는 초기 논의와 게임플레이에 도움을 준 Andrzej Banburski-Fahey에게 감사드립니다. 혼합 현실 작업과 데이터 세트 작업에 기여하고 이 프로젝트에 아낌없는 도움과 공헌을 해주신 Microsoft 메시 팀, Microsoft OCTO, Microsoft Office 팀의 Kiran Muthabatulla, 안토니오 크리미니시, 톰 캐시먼, 응웬 바흐, 제니퍼 마스만, 제이론 래니어에게 감사드립니다. 그리고 프로젝트에 대한 아낌없는 도움과 피드백에 감사드립니다. 특히 NLP 섹션에 대한 제안과 의견을 주신 Paul Bennett, Corby Rosset, Michel Galley, Chenglong Wang, Baolin Peng, Hao Chen, 실비우 쿠커잔, 아메드 아와달라, 살레마 아머시에게 감사의 말씀을 전합니다. NLP 섹션에 대한 의견. 저자들은 NLP 섹션에 대한 제안과 의견을 보내준 Paul Smolensky, Yonatan Bisk, Kezhen Chen, Borui Wang, Liangke Gui, Dingmin Wang, Xin (Eric) Wang, Zhe Gan, Xiaojian Ma, Zilong Zheng, Song-chun Zhu, Dragomir R. Wang 및 D. S. Wang에게 진심으로 감사의 뜻을 표합니다. 관련 선행 작업, 의견, 제안, 이 백서에 대한 고된 여러 차례의 검토, 그리고 문헌에 대한 자극을 준 Zhu, Dragomir R. Radev, Daniel McDuff, Harry Shum에게도 감사드립니다. 마지막으로 디바이스를 아낌없이 제공해 준 Microsoft Holulens 팀, Microsoft X-box 팀, Meta Quest 팀, 데이터 수집 및 공유에 도움을 준 MSR 중앙 엔지니어링(CE) 팀, Microsoft 343 팀, Azure-OpenAI 엔드포인트를 지원해 준 Microsoft AOAI 및 GCR 팀에 진심으로 감사드립니다.

또한 이 연구에서 탐구한 의료 애플리케이션을 이해하는 데 도움을 준 스탠포드 AI 보조 치료 파트너십의 동료들에게도 감사의 말씀을 전합니다. 특히 임상 전문 지식과 지도를 제공해주신 Ehsan Adeli, 폴 탕, 아밋 카우샬, 로저 본, 케빈 슐만, 아놀드 밀스타인에게 감사의 말씀을 전합니다.

이 연구는 마이크로소프트 리서치 프로젝트 페어 2023, 마이크로소프트 핵박스 2023, OCTO 팀의 지원을 받았습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...