OpenAI, 최초의 L3급 인텔리전스 오퍼레이터 출시: 인간과 컴퓨터 상호작용의 새로운 시대 개막

AI 뉴스7개월 전 업데이트 AI 공유 서클
2.7K 00

컴퓨터 사용 트랙은 스타트업과 다크호스, 그리고 거대 대기업들로 붐비는데, 이제 OpenAI가 이 트랙을 죽였습니다.

팔로우할 수 있습니다. 데스크톱 자동화 인텔리전스 를 통해 수십 개의 관련 제품을 수집했습니다.

 

인공지능 분야의 경쟁은 점점 더 치열해지고 있으며, 스타트업의 등장뿐만 아니라 거대 기술 기업들도 이 분야에 뛰어들었고, 이제는 OpenAI도 이 경쟁에 본격적으로 뛰어들었습니다. 최근 OpenAI는 인간처럼 자율적으로 컴퓨터를 조작할 수 있는 최초의 인공지능 시스템인 오퍼레이터(Operator)라는 지능형 신체 시스템을 공식 출시했는데, 이는 인공지능이 일반 인공지능(AGI)으로 나아가기 위한 핵심 단계로 평가받고 있습니다. OpenAI의 대표인 그렉 브록맨은 이렇게 예측했습니다:

2025년은 지능형 신체의 해가 될 것입니다. 우리는 지능형 신체가 깊이 관여하는 '하이브리드 인터넷'(하이브리드 인터넷)의 탄생을 목격하게 될지도 모릅니다. "

OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

운영자: CUA 모델에 기반한 컴퓨터 사용 인텔리전스

오퍼레이터는 OpenAI가 공개한 연구용 프리뷰 제품으로, 핵심 기술은 컴퓨터 사용 에이전트(CUA) 모델로, GPT-4o의 시각 기능과 강화 학습 기술을 결합하여 스크린샷을 분석하고 사람이 키보드, 마우스 등 주변기기를 사용하여 다양하고 복잡한 작업을 수행하는 것을 시뮬레이션하여 그래픽 사용자 인터페이스(GUI)와 상호 작용할 수 있도록 하는 것입니다. 키보드, 마우스 및 기타 주변기기를 사용하여 컴퓨터를 조작하고 다양하고 복잡한 작업을 완료할 수 있습니다.

사전 구축된 API에 의존하는 기존의 AI 시스템과 달리, 오퍼레이터는 특정 애플리케이션이나 웹사이트에 특화된 API를 개발할 필요 없이 그래픽 사용자 인터페이스(GUI)와 직접 상호작용하므로 클릭, 입력, 스크롤 등의 기본적인 동작을 통해 인간 사용자처럼 거의 모든 컴퓨터 애플리케이션 및 웹페이지와 상호작용할 수 있어 AI 애플리케이션의 범위가 크게 확장됩니다. 이는 AI 애플리케이션의 범위를 크게 확장합니다.

OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

운영자의 기능적 특징 및 적용 가능성

데모에서 오퍼레이터는 사용자 명령을 이해하고 다양한 일상 및 전문 작업을 완료하는 등 자율적으로 작동하는 인상적인 능력을 보여주었습니다:

  • 생활 서비스 예약운영자는 레스토랑 예약, 온라인 쇼핑, 항공권 예약, 이벤트 티켓 예약, 하우스키핑 예약, 테이크아웃 주문 등을 자동화할 수 있습니다. 예를 들어, 사용자가 손으로 쓴 쇼핑 목록의 사진을 업로드하기만 하면 운영자가 콘텐츠를 인식하여 Instacart와 같은 플랫폼에서 구매를 완료합니다.
  • 정보 처리 및 자동화파일 일괄 다운로드, 문서 일괄 편집, 온라인 양식 작성 등과 같은 반복적인 작업을 빠르게 완료합니다.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

특히 오퍼레이터의 주요 기능은 다음과 같습니다:

  • 시각적 인식CUA 모델은 화면의 픽셀 데이터를 처리하고, 화면의 현재 시각적 상태를 이해하고, 인터페이스 요소(예: 버튼, 텍스트 상자 등)를 인식할 수 있습니다.
  • 추론 및 계획CUA는 생각의 사슬(CoT) 기술을 통해 작업 단계를 추론하고 작업 경로를 계획하며 환경 변화에 따라 행동 계획을 동적으로 조정하고 문제가 발생했을 때 스스로 수정하고 전략을 조정할 수 있습니다.
  • 작업 실행CUA는 가상 마우스와 키보드를 사용하여 목표 작업이 완료될 때까지 클릭, 스크롤, 입력 등을 수행합니다. 사용자는 운영자가 OpenTable과 같은 특정 앱을 사용하여 레스토랑 예약을 하거나 쇼핑 목록을 Instacart에 업로드하여 첨부 파일을 통해 주문하도록 할 수도 있습니다.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

CUA 기술 핵심: 시각적 인식, 추론 계획 및 공통 인터페이스

운영자의 핵심 원동력은 CUA 모델의 강력한 기술 역량에 있으며, 핵심 기술 구성 요소는 다음 세 가지 주요 측면을 포함합니다:

(1) 시각적 지각과 추론: CUA는 스크린샷을 처리하여 인터페이스의 내용을 분석하여 화면의 요소와 정보를 이해합니다. CUA는 '사고 체인' 기술과 결합하여 다음 단계를 추론하고 작업 흐름을 추적 및 조정하기 위한 스크린샷과 작업 로그를 생성할 수 있습니다.

(2) 다단계 작업 계획: CUA는 웹 페이지에서 제품 검색, 사양 선택, 주문 확인 등 복잡한 작업을 다단계 작업으로 세분화할 수 있습니다. 또한 CUA는 다음과 같은 다양한 작업을 수행할 수 있는 기능을 제공할 수 있습니다. 더 중요한 것은 CUA가 다음과 같은 기능을 제공한다는 것입니다. 변화에 대한 적응과 자기 수정 사이트의 콘텐츠가 예상과 다를 때 대안을 찾는 능력.

(3) 특정 API가 필요하지 않은 일반 인터페이스: CUA는 기존 AI의 API 의존성을 없애고 사용자 인터페이스와 직접 상호 작용할 수 있어 거의 모든 웹 및 소프트웨어 환경에 적용 가능하며, 진정한 의미의 "디지털 세상을 위한 범용 인터페이스."AI가 인간이 사용하는 모든 소프트웨어 도구와 상호 작용할 수 있게 해줍니다.

 

CUA 성능: 벤치마킹 및 실제 적용 사례

CUA는 여러 벤치마크 테스트에서 이전 기술 수준을 훨씬 뛰어넘는 획기적인 성과를 거두었습니다:

  • OSWorld(운영 체제 작업)CUA 완료율 38.1%이전 최고 기록보다 훨씬 높은 기록입니다. 22.0%.
  • 웹아레나(브라우저 작업)CUA의 성공률 달성 58.1%이전보다 훨씬 높은 36.2%.
  • WebVoyager(간단한 웹 작업)CUA 도달 87% 성공률은 인간과 거의 비슷한 수준입니다.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

그럼에도 불구하고 CUA는 여전히 인간의 수준에는 미치지 못합니다(예: OSWorld의 인간 완료율은 72.41 TP3T). 실제로 CUA에도 몇 가지 한계가 있습니다:

  • 부정확한 텍스트 편집복잡한 텍스트 편집 작업에서 오류가 발생하기 쉽습니다.
  • 상호 작용 제한 사항익숙하지 않고 복잡한 사용자 인터페이스에 직면하면 여러 번의 시행착오가 필요할 수 있습니다.
  • 종속성 세부 정보 설명최상의 결과를 얻으려면 사용자에게 매우 구체적인 작동 지침이 필요합니다.

 

보안: 사용자 개인정보 및 보안을 보호하는 다양한 메커니즘

운영자가 결제 및 로그인과 같은 민감한 작업을 처리할 수 있다는 점을 고려하여 OpenAI는 사용자 개인정보 보호 및 운영 보안을 보장하기 위해 여러 계층의 보안을 설계에 통합했습니다:

  • 위임 확인예약 및 결제와 같은 중요한 작업을 수행하기 전에 시스템에서 사전에 사용자에게 확인을 요청합니다. 예를 들어, 어시스턴트가 비밀번호 재설정을 위해 이메일을 작성하거나 이메일을 삭제하려고 할 때 사용자에게 진행 여부를 확인하도록 요청합니다.
  • 콘텐츠 필터링잠재적으로 유해할 수 있는 요청(예: 무기 구매)을 자동으로 식별하고 차단합니다.
  • 행동 모니터링시스템에는 비정상적인 작업을 감지하고 작업을 일시 중단하는 모니터링 기능이 내장되어 있습니다.
  • 사용자가 언제든지 제어권을 넘겨받을 수 있습니다.사용자는 작업 중 언제든지 작업을 인수할 수 있으며, 운영자는 인수 기간 동안 사용자의 작업 기록에 액세스할 수 없으므로 사용자의 개인정보가 보호됩니다.
  • 인적 감독 메커니즘민감한 작업(예: 비밀번호 입력)의 경우 CUA는 오용을 방지하기 위해 사용자에게 확인을 요청합니다.
  • 사기 방지 조치CUA는 사기 가능성이 있는 웹사이트를 인식하고 운영을 중단할 수 있습니다.
  • 행동 투명성CUA는 작업의 모든 단계에서 스크린샷을 생성하여 모든 작업을 추적할 수 있도록 합니다.
OpenAI 推出首个L3级智能体Operator:开启人机交互新时代

 

향후 전망: 지능형 신체 대중화 및 AGI 개발

현재 오퍼레이터는 미국 내 프로 사용자에게만 테스트용으로 공개되어 있으며, 향후 더 많은 사용자 그룹으로 확대할 예정이며 개발자가 자체 컴퓨터 지능을 구축할 수 있는 API를 통해 CUA 기능을 개방할 계획이라고 OpenAI는 밝혔습니다.

오퍼레이터의 출시는 AGI의 진화에 있어 중요한 단계로 여겨집니다. 앞으로도 오퍼레이터와 CUA 기술은 다양한 방식으로 계속 발전해 나갈 것입니다:

  • 인텔리전스 확장CUA의 작업 공간은 더 많은 작업 시나리오로 확장될 예정이며, OpenAI는 개발자가 맞춤형 인텔리전스를 구축하고 애플리케이션의 경계를 확장할 수 있도록 지원하는 오픈 API를 제공할 계획입니다.
  • 운영자 글로벌 오픈앞으로 운영자는 더 많은 지역의 플러스 사용자에게 액세스를 개방하여 전 세계 사용자에게 혜택을 제공할 수 있을 것으로 기대합니다.
  • AGI 발전오퍼레이터의 등장은 인공지능 시대의 도래가 가속화되고 있으며, 앞으로 더 많은 인공지능이 등장해 더 광범위한 디지털 상호작용 업무에서 인간을 대체할 것으로 예상됩니다. 2025년은 진정한 '스마트 바디의 해'가 될 수 있습니다..

 

결론 및 반성

오퍼레이터와 CUA의 출시는 데이터 인터페이스 기반 모드에서 인간-컴퓨터 인터페이스 기반의 범용 작동 모드로 전환되고 있는 AI의 상호작용 모드에 혁신적인 변화를 가져와 일반 인공지능(AGI) 실현을 위한 탄탄한 기반을 마련했습니다.

문제에 대해 깊이 생각해 보세요:

  • CUA 기술이 기존의 API 기반 AI 운영을 점진적으로 대체할까요? 산업 부문에서 실제 구축 비용과 이점은 무엇인가요?
  • CUA의 역량이 계속 증가함에 따라 디지털 업무에서 인간의 역할은 어떻게 변화할까요? '지능형 신체 인수'에 대비해야 할까요?
  • 점점 더 복잡해지는 네트워크 환경과 잠재적인 오용 위험에 직면해 있는 상황에서 CUA는 어떻게 계속해서 사용자 보안을 효과적으로 보장할 수 있을까요? 향후 보안 설계를 위해 어떤 새로운 차원을 고려해야 할까요?
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...