AutoGLM-웹 플러그인: 컴퓨터 사용을 넘어 AI의 '전화 사용' 시대가 도래했습니다!

65.1K 00

AutoGLM-Web插件：不止 Computer Use，AI 的「Phone Use」时刻也来了

컴퓨터와 비교하면 '내려놓을 수 없는' 휴대폰은 더 오랜 시간 우리와 함께하며 우리 생활에 더 가까이 있습니다.

'컴퓨터 사용'이 인간과 컴퓨터의 상호작용이라는 새로운 패러다임을 열었다면, '전화 사용'은 한 걸음 더 나아가 더 많은 애플리케이션의 가능성을 열어 AI가 모든 사람에게 진정한 혜택을 제공할 수 있도록 합니다.

컴퓨터를 제어할 수 있는 진짜 AI, GLM-PC(스마트 스펙트럼 불) 사내 다운로드용 정식 출시

언어 모델링, 멀티모달 모델링 및 도구 사용 분야에서 GLM 기술팀의 노력과 연구 결과를 바탕으로, 간단한 텍스트/음성 명령만으로 사람의 휴대폰 조작을 시뮬레이션하여 도움을 줄 수 있는 GLM의 첫 번째 제품화된 지능형 바디(에이전트)인 AutoGLM을 오늘 출시합니다:

위챗에서 '상사의 친구 서클에 좋아요를 누르고 댓글 작성하기' ......
타오바오에서 "특정 과거 주문 상품 구매" ......
Ctrip에서 호텔 예약하기 ......
12306에서 기차표 구매하기 ......
메이투안에서 테이크아웃 주문하기 ......

이론적으로 GUI에 대한 깊은 이해만 있으면 AutoGLM은 사람이 시각적 전자 장치(컴퓨터, 휴대폰, 태블릿 ......)에서 할 수 있는 모든 작업을 수행할 수 있습니다.

인공지능의 '전화 사용' 순간은 일반화된 인공지능(AGI)으로 가는 길에 또 하나의 작은 발걸음을 내디뎠습니다.

단순한 작업 시나리오나 API 호출에 국한되지 않고 사용자가 복잡하고 지루한 워크플로를 수동으로 구축할 필요가 없으며, 작업 로직이 인간과 유사하여 일상 생활과 업무에서 인간을 진정으로 지원합니다.
프로젝트 주소: https://xiao9905.github.io/AutoGLM

이번에는 여전히 '선물'을 게시하지 않으므로 통과할 수 있습니다:
Chrome 또는 Edge에서 사용자의 웹 페이지 방문을 시뮬레이션하고, 웹 페이지를 클릭하며, 사용자 명령에 따라 웹 사이트에서 고급 검색, 요약 및 콘텐츠 생성을 자동으로 수행하는 브라우저 어시스턴트인 'Wisdom Spectrum' 플러그인을 설치하여 AutoGLM-Web을 체험할 수 있습니다.
휴대폰 측면에서는 일부 청인 사용자에게 첫 번째 배치가 공개되며(당분간 안드로이드 시스템만 지원), 내부 테스트를 위한 신청서를 제출할 수 있습니다. 또한 AutoGLM을 기반으로 Honor와 같은 휴대폰 제조업체와도 긴밀히 협력하고 있다는 점도 언급할 가치가 있습니다.

AutoGLM 기술

AutoGLM은 스마트 스펙트럼이 자체 개발한 '기본 지능을 위한 분리형 중간 인터페이스'와 '자기 진화형 온라인 코스 강화 학습 프레임워크'를 기반으로 대규모 모델 지능의 작업 계획 및 실행에서 용량 길항, 훈련 작업 및 데이터의 부족, 피드백 신호의 부족, 전략 분포의 표류 등의 지능 연구 및 적용 문제를 적응형 학습 전략과 결합하여 극복하고 반복 과정에서 지속적인 개선이 가능하다는 특징이 있습니다, 지속적이고 안정적으로 성능을 향상시킬 수 있습니다. 마치 사람이 성장하는 과정에서 끊임없이 새로운 기술을 습득하는 것처럼 말입니다.

AutoGLM은 대규모 모델을 인텔리전스로 사용할 때 두 가지 주요 과제를 해결합니다:

과제 1: 불충분하게 정확한 '작업 실행'

대규모 모델 지능을 훈련하는 데 있어 가장 큰 어려움 중 하나는 모델이 화면에 표시되는 요소를 정확하게 조작하는 방법을 학습하도록 하는 것입니다. '액션 실행'과 '작업 계획' 능력을 함께 훈련하는 엔드투엔드 훈련은 궤적 데이터 수집에 드는 높은 비용과 전체 데이터의 심각한 부족으로 인해 높은 정밀도가 필요한 액션 실행 능력의 훈련이 부적절하다는 제약을 받습니다.
이 문제를 해결하기 위해 AutoGLM은 "기본 지능의 분리 된 중간 인터페이스"설계를 도입하여 자연어 중간 인터페이스를 통해 "작업 계획"과 "작업 실행"의 두 단계를 분리하여 지능의 능력을 크게 향상시킵니다. 예를 들어, 휴대폰으로 테이크아웃을 주문하고 '주문 제출' 버튼을 클릭할 때 기존 방식과 '중간 인터페이스' 방식을 비교하면 다음과 같습니다:

과제 2: '미션 계획'의 유연성 부족

또 다른 주요 과제는 GUI 인텔리전스의 훈련 궤적 데이터가 매우 제한적이고 비용이 많이 든다는 점입니다. 또한 복잡한 작업과 실제 환경에 직면했을 때 즉시 계획하고 수정할 수 있는 유연성을 갖춰야 합니다. 이는 모방 학습 및 감독 미세 조정(SFT)과 같은 기존의 대규모 모델 훈련 방법으로는 쉽게 얻을 수 없습니다. 이를 위해 웹 브라우저를 실험 환경으로 삼아 웹과 전화 등 실제 온라인 환경에서 대규모 모델 지능의 기능을 처음부터 학습하고 강화하는 '자가 진화형 온라인 코스 강화 학습 프레임워크'를 개발했습니다. 자기 진화 학습 전략을 도입함으로써 모델은 지속적으로 스스로를 점검하고 자극하며 개선합니다. 이 프레임워크는 과정 강화 학습 방식을 통해 현재 반복 라운드에서 지능의 능력 수준에 따라 학습 과제 난이도를 동적으로 조정하여 모델의 잠재력을 극대화합니다. 또한 KL 분산 제어와 지능형 신체 신뢰도 경험 재생의 정책 업데이트를 통해 반복 학습 중 모델이 이전 학습 과제를 잊어버리는 문제를 완화하고 방지합니다. 이 방법을 기반으로 훈련된 오픈 소스 버전의 GLM-4-9B는 WebArena-Lite 평가 벤치마크에서 GPT-4o 대비 160% 이상을 개선하여 전체 작업 성공률 43%를 달성할 수 있었습니다.
AutoGLM은 '기본 지능의 중간 인터페이스 분리'라는 와이즈플랜의 자체 전략과 '스스로 진화하는 온라인 코스 강화 학습 프레임워크'를 결합하여 전화 사용과 웹 브라우저 사용 모두에서 상당한 성능 향상을 달성했습니다. 예를 들어, AutoGLM은 AndroidLab 벤치마크에서 GPT-4o 및 Claude-3.5-Sonnet보다 훨씬 뛰어난 성능을 보였습니다. AutoGLM-Web插件：不止 Computer Use，AI 的「Phone Use」时刻也来了 WebArena-Lite 벤치마크에서 AutoGLM은 GPT-4o 대비 약 200%의 성능 향상을 달성하여 GUI 조작 성공률 측면에서 인간과 대규모 모델 지능 간의 격차를 크게 줄였습니다.
AutoGLM은 이제 안드로이드 애플리케이션을 통해 실제 안드로이드 폰의 여러 애플리케이션에서 자동화된 작업 실행을 지원합니다. AutoGLM은 간단한 작업의 수동 평가에서도 만족스러운 성능을 발휘합니다.
AutoGLM-Web插件：不止 Computer Use，AI 的「Phone Use」时刻也来了