스마트 스펙트럼 GLM-PC 오픈 경험: 컴퓨터의 자율적 운영을 위한 멀티모달 에이전트 재업그레이드

AI 뉴스7개월 전에 게시 됨 AI 공유 서클
1.5K 00
智谱GLM-PC开放体验:自主操作电脑的多模态Agent再升级

 

GLM-PC는 세계 최초의 공개용 턴키 컴퓨터 에이전트로, CogAgent 멀티모달 모델에 기반합니다. 사람처럼 컴퓨터를 '관찰'하고 '작동'하며 사용자가 다양한 컴퓨터 작업을 효율적으로 완료할 수 있도록 지원합니다.

 

2024년 11월 29일 GLM-PC v1.0이 출시되고 오픈 베타 버전이 출시된 이후, 최근 '딥씽킹' 모드가 도입되고 논리적 추론 및 코드 생성 전용 기능이 추가되는 등 지속적으로 최적화 및 업그레이드가 이루어지고 있습니다. 또한Windows 시스템에 대한 지원도 제공합니다..

 

다운로드 및 체험: https://cogagent.aminer.cn

 

GLM-PC 아키텍처

최근 몇 년 동안 에이전트는 모델 및 아키텍처 수준에서 점점 더 많이 논의되고 있습니다.

 

대규모 언어 모델(LLM)의 도구 호출 기능은 LLM이 우수한 일반화 및 소규모 샘플 학습 기능을 통해 인간 생산과 유기적으로 통합된 에이전트로 사용될 수 있는 방법을 처음으로 보여주지만, 텍스트 형식으로 상호 작용할 수 있는 공개적으로 액세스 가능한 도구의 유형에 따라 적용 범위가 제한됩니다.

 

에 따르면 CogAgent 일련의 시각 언어 모델(VLM) 기반 그래픽 인터페이스 인텔리전트(GUI 에이전트)로 대표되는 일련의 GUI 에이전트는 멀티모달 인식을 통해 완전한 GUI 공간 상호작용을 달성하기 위한 새로운 경로를 제안합니다. 이러한 GUI 에이전트는 인간과 유사하게 인터페이스 요소와 레이아웃을 시각적으로 인식하고 인간을 시뮬레이션하여 클릭 및 키보드 입력과 같은 메타 작업을 수행할 수 있어 가상 상호작용 공간에서 에이전트의 활용 범위를 크게 확장할 수 있습니다.

 

동시에 SWE-에이전트와 같은 다중 에이전트 시스템은 다양한 모델의 강점을 통합하여 다중 모델 기반의 계획, 반영 및 자기 반복을 탐색함으로써 다중 에이전트 협업의 잠재력을 보여줍니다.

 

에이전트의 발전은 모델 기능 향상과 협업 아키텍처 최적화에 기인한다고 생각합니다.

 

완전한 에이전트는 다음 조건을 충족해야 합니다:

  • 지각 수준에서는 텍스트, 이미지, 비디오 및 오디오와 같은 여러 신호를 수신할 수 있습니다;
  • 사고 수준에서는 논리적으로 사고하고 작업을 계획하는 능력(좌뇌와 유사)과 효율적으로 지각하고 유연하게 작동하는 능력(우뇌와 유사)이 있습니다;
  • 실행 수준에서는 전체 GUI 공간 작업을 수행하고, 환경 피드백을 받고, 자체 수정할 수 있는 기능을 제공합니다.

 

이러한 생각을 바탕으로 2023년에는 멀티모달 인식에서 GUI 에이전트의 공백을 메우는 CogAgent 오픈 소스 모델을 도입했고, 2024년 11월에는 GLM-PC v1.0을 통해 인식, 계획, 생성 기능을 더욱 강화하고 제한적인 자가 교정을 실현했습니다.

 

이제 새로운 버전의 GLM-PC는 인간의 '좌뇌'와 '우뇌' 사이의 분업을 바탕으로 코드 생성 및 그래픽 인터페이스 이해를 통해 논리적 추론과 지각적 인지의 심층적인 결합을 달성하여 논리와 창의성 사이의 균형을 유지하여 인간이 복잡한 작업을 완료할 수 있도록 도와줍니다.

 

그 뒤에는 스마트 스펙트럼에서 개발한 멀티모달 모델인 CogAgent와 코드 모델이 있습니다. CodeGeex 새로운 GLM-PC는 워크플로우와 도구 호출을 코드로 지시합니다. 새 버전의 GLM-PC는 워크플로와 도구 호출을 코드 형식으로 명령하고, 심층 사고 모드에서 계획, 추론, 반영 기능을 강화하여 복잡한 시나리오와 작업에 안정적이고 효율적으로 대응할 수 있습니다. 실제 실행 중에 GLM-PC는 다계층 환경 피드백을 감지하고 반영을 지원하여 효과적인 자체 수정 및 최적화를 수행할 수 있습니다.

 

사전 학습된 GUI 에이전트에 대한 연구를 촉진하기 위해 2024년 12월에 완전히 개선된 모델인 CogAgent-9B-20241220를 오픈소스화했다는 점을 언급할 필요가 있습니다.

 

 

에이전트 좌뇌: 코드 생성 및 로직 실행

GLM-PC의 '좌뇌'는 엄격한 논리적 추론과 작업 실행을 담당합니다. 주요 기능은 다음과 같습니다:

 

1. 계획

GLM-PC는 사용자의 작업 요구사항에 따라 세부 작업 계획 프로그램을 신속하게 개발할 수 있습니다. 목표와 사용 가능한 리소스를 종합적으로 분석하고 실행 로드맵을 생성하며 대규모 작업을 관리 가능한 하위 작업으로 자동 세분화하여 명확한 실행 경로를 구축합니다.

 

2、루핑 실행(루핑 실행)

계획 단계가 끝나면 GLM-PC는 코드 생성 모듈을 실행하여 작업 완료를 향해 단계별로 진행되는 논리적 루프를 실행합니다. 이 루핑 메커니즘은 고도의 자동화를 통해 작업을 정확하게 실행하여 사람의 개입 없이 입력부터 출력까지 완전한 폐쇄형 루프를 구현합니다.

 

사례 연구: 원스톱 쇼핑 프로세스

제품 정보를 예로 들면, GLM-PC는 사진에서 제품 데이터를 자동으로 추출하여 Excel에 저장하고 자동으로 제품을 타오바오 장바구니에 추가하여 원스톱 쇼핑 프로세스를 실현할 수 있습니다.

 

작동 방법: 사진의 제품 정보를 가져와 데스크톱에 새 Excel을 만들어 정보를 저장한 다음, 타오바오 장바구니에 제품 정보를 추가합니다.

 

(텍스트의 동영상은 약간 가속됩니다.)

 

3. 긴 사고력: 동적 반영, 오류 수정 및 최적화

GLM-PC의 '좌뇌' 기능은 정적 계획을 생성할 뿐만 아니라 실행 과정에서 새로운 환경 정보를 기반으로 실시간 조정, 반영 수정 및 자체 수정을 수행하여 솔루션을 지속적으로 최적화합니다. 구체적인 성능은 다음과 같습니다:

  • 중단에 대처하는 유연성: 외부 요인으로 인해 프로세스가 중단되면 GLM-PC가 논리적 경로를 신속하게 재구성하여 작업이 원활하게 실행되도록 합니다.
  • 사전 정보 구체화: 누락된 정보가 발견되면 GLM-PC는 사용자와 적극적으로 상호 작용하여 질문을 통해 작업 실행 계획을 구체화합니다.

 

사례 연구: 효율적인 정보 처리와 사회적 상호작용

예를 들어, 사용자가 샤오홍슈에서 '설날 영화'의 정보를 처리하도록 도울 때 GLM-PC는 관련 데이터를 빠르게 찾아서 추출하는 동시에 컴퓨터에 정보를 저장하는 코드를 작성할 수 있습니다. 생성된 코드에 오류가 있는 경우 오류 메시지에 따라 자체적으로 수정할 수 있습니다.

 

방법: 샤오홍슈에서 "춘절 새해 전야 영화"를 검색하고 첫 번째 그래픽 포스팅의 포스팅 이미지를 인용한 후, WeChat의 {GGG} 그룹 채팅으로 이미지를 전송하고 어떤 영화를 보고 싶은지 물어보세요.

 

 

에이전트 우뇌: 이미지 및 GUI 인식

GLM-PC의 '우뇌'는 깊이 인식과 대화형 경험에 중점을 둡니다. 핵심 기능은 다음과 같습니다:

  • GUI 이미지 이해: 그래픽 인터페이스 요소(예: 버튼, 아이콘, 레이아웃 등)를 정확하게 식별하고 그 기능과 상호 작용 로직을 이해합니다.
  • 사용자 행동 인식: 사용자 인터페이스에 대한 학습과 과거 작업 정보에 대한 이해를 결합하여 현재 인터페이스에 대한 지능적인 권장 작업을 사용자에게 제공합니다.
  • 이미지 의미 분석: 복잡한 이미지를 심층적으로 의미 분석하여 데이터 시각화 차트에서 텍스트, 식별자, 추세 및 지표와 같은 주요 정보를 추출합니다.
  • 멀티모달 정보 융합: 이미지와 텍스트 정보를 융합하여 종합적인 인식 결과를 도출합니다. 예를 들어 사용자 인터페이스의 버튼 위치와 텍스트 레이블을 모두 인식하여 '좌뇌'가 정확한 작업 계획을 수립할 수 있도록 지원합니다.

 

데모: 효율적인 데이터 정리 및 아카이빙

예를 들어, GLM-PC는 샤오홍슈에서 '인공지능 랭킹'과 관련된 그래픽 콘텐츠를 검색하고 추출할 수 있습니다. 이후 자체 작성된 코드를 통해 회사 정보는 데스크톱에 새로 생성된 엑셀 파일에 저장되고 게시물의 텍스트 콘텐츠는 지정된 워드 문서에 저장되어 사용자 데이터를 효율적으로 정리 및 보관하고 정보 관리의 효율성을 높일 수 있습니다.

 

조작 방법: 샤오홍슈의 첫 번째 사진 및 텍스트 게시물에서 '신에너지 자동차 목록'을 검색하고, 첫 번째 게시물의 사진 내용과 텍스트 내용을 인용하고, 사진의 정보 목록을 가져와 새 데스크톱 Excel에 저장하고, 게시물의 텍스트 내용을 새 데스크톱 워드 문서에 new-energy라는 새 데스크톱 워드 문서에 넣습니다. 라는 새 데스크톱 워드 문서에 게시글의 텍스트 내용을 넣습니다.

 

 

에이전트의 에이전트: 좌뇌와 우뇌의 협업

좌뇌와 우뇌의 협업을 활용하는 이 모델을 통해 GLM-PC는 복잡한 논리적 작업을 처리할 뿐만 아니라 개방형 문제에 대한 높은 적응력, 창의성, 일반화 능력을 발휘할 수 있습니다. 동적 최적화와 상황 인식을 통해 GLM-PC는 특히 순환 작업 처리, 다단계 추론 실행, 긴 체인 작업 관리에서 사용자가 보다 효율적인 솔루션을 탐색할 수 있도록 도와줍니다.

 

사례 연구: 6학년 영어 어휘 학습 보조 자료

6학년 영어 어휘 학습 도우미인 GLM-PC는 지정된 웹사이트에서 6학년 어휘 단어를 자동으로 추출하고, 이 단어를 기반으로 문장을 만들고, 어휘 단어와 해당 문장을 "6학년 영어 어휘 학습"이라는 새 Word 문서에 자동으로 저장할 수 있습니다.

 

이 "https://www.dxsbb.com/news/277.html" 6학년 어휘에서 어휘 단어 3개를 찾은 다음 각 단어마다 문장을 만들고, 어휘 단어와 해당 문장을 새 Word 문서에 붙여넣고 "6학년 영어 어휘 학습"으로 저장하세요.

 

 

데모: 개인화된 WeChat 축복 및 새해 축하 사진 그룹 보내기

GLM-PC는 WeChat 그룹 친구를 위한 맞춤형 설날 소원 및 축하 사진/동영상을 자동으로 맞춤 설정하고 클릭 한 번으로 그룹으로 전송할 수 있어 명절 인사를 효율적으로 완성할 수 있습니다.

 

방법: 위챗에서 'GGG' 그룹 멤버 목록을 인용하여 각 멤버에게 2025년 뱀의 해를 주제로 한 새해 소원 메시지와 사진을 보내세요.

 

 

사례 연구: 지능형 항공편 조회 및 스케줄링

GLM-PC는 사용자에게 빠른 항공편 정보를 제공하고, 가장 경제적인 항공권을 선별하며, 플라이북 캘린더 알림 설정과 동기화하여 항공편 조회, 항공권 선별부터 예약까지 원스톱 서비스를 제공할 수 있습니다.

 

지침: 1월 21일에 상하이에서 베이징으로 가는 가장 저렴한 항공권을 Ctrip에서 찾도록 도와주세요. 비행 6시간 전에 공항으로 출발하는 것을 테마로 하고 30분 동안 플라이북 캘린더를 설정하도록 도와주세요.

 

쇼케이스: PDF 수학 문제 추출 및 정리 과정

GLM-PC는 PDF 파일을 자동으로 열고 지정된 콘텐츠를 추출한 후 정보를 대조하여 Word 문서에 저장합니다.

 

작업 지침: 데스크톱에서 순열 및 이항 정리 연습.pdf 파일을 열고 현재 인터페이스를 요약하는 처음 몇 개의 수학 문제를 인용한 다음 데스크톱의 새 워드 문서에 넣도록 도와주세요.

 

 

협업

레노버, 아수스 등 유명 PC 제조업체와 심도 있는 협력을 통해 AIPC(인공지능 개인용 컴퓨터)의 혁신과 발전을 공동으로 추진하고 있습니다.

 

AIPC는 컴퓨터뿐만 아니라 개인용 컴퓨팅에 AI 에이전트를 새롭게 적용하여 사용자에게 보다 효율적이고 스마트한 업무 및 생활 경험을 제공할 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...