코그에이전트: 그래픽 인터페이스 자동화를 위한 스마트 스펙트럼의 오픈 소스 지능형 시각 언어 모델

최신 AI 리소스12개월 전에 게시됨 AI 공유 서클
39.1K 00
堆友AI

일반 소개

CogAgent는 칭화대학교 데이터 마이닝 연구 그룹(THUDM)에서 개발한 오픈 소스 시각 언어 모델로, 크로스 플랫폼 그래픽 사용자 인터페이스(GUI) 작업을 자동화하는 것을 목표로 합니다. 이 모델은 CogVLM(GLM-4V-9B)을 기반으로 하며 영어와 중국어 이중 언어 상호 작용을 지원하고 스크린샷과 자연어를 통해 작업을 실행할 수 있으며, CogAgent는 여러 플랫폼과 범주에 걸쳐 GUI 작업에서 최고의 성능을 달성했으며 Windows, macOS, Android 등 다양한 컴퓨팅 장치에 적합합니다. 최신 버전인 CogAgent-9B-20241220 는 GUI 인식, 추론 정확도, 작업 공간 완성도 및 작업 일반화 가능성이 크게 향상되었습니다.

CogAgent-9B-20241220 이 모델은 이중 언어 오픈 소스 VLM 기본 모델인 GLM-4V-9B를 기반으로 합니다. 데이터 수집 및 최적화, 다단계 교육 및 전략 개선을 통해 CogAgent-9B-20241220 GUI 인식, 추론 예측 정확도, 작업 공간 완성도 및 교차 작업 일반화 기능에서 상당한 진전이 이루어졌습니다. 이 모델은 스크린샷과 구두 입력을 포함한 이중 언어(중국어 및 영어) 상호 작용을 지원합니다. 이 버전의 코그에이전트 모델은 스마트 스펙트럼 AI의 GLM-PC 제품에 사용되었습니다.

CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

 

CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

 

기능 목록

  • 고해상도 이미지 이해 및 처리(1120x1120 해상도 지원)
  • GUI 인터페이스 자동화 기능
  • 플랫폼 간 호환 가능한 인터페이스 상호 작용
  • 시각적 질문 및 답변(VQA) 작업 처리
  • 차트 이해 및 분석(ChartQA)
  • 문서 시각적 질문 및 답변(DocVQA)
  • 정보 시각적 질문 및 답변(InfoVQA)
  • 장면 텍스트 이해력(ST-VQA)
  • 일반 지식에 대한 시각적 퀴즈(OK-VQA)

 

도움말 사용

1. 환경 설정

1.1 기초 요구 사항:

  • Python 3.8 이상
  • CUDA에서 지원하는 GPU 장치
  • 충분한 비디오 메모리 공간(최소 16GB 권장)

1.2 설치 단계:

# 克隆项目仓库
git clone https://github.com/THUDM/CogAgent.git
cd CogAgent
# 安装依赖
pip install -r requirements.txt

2. 모델 로드 및 사용

2.1 모델 다운로드:

  • 허깅 페이스 플랫폼에서 모델 가중치 파일을 다운로드합니다.
  • 코가젠트-18b와 코가젠트-9b의 두 가지 버전이 지원됩니다.

2.2 기본 사용 절차:

from cogagent import CogAgentModel
# 初始化模型
model = CogAgentModel.from_pretrained("THUDM/CogAgent")
# 加载图像
image_path = "path/to/your/image.jpg"
response = model.process_image(image_path)
# 执行GUI操作
gui_command = model.generate_gui_command(image_path, task_description)
model.execute_command(gui_command)

3. 주요 기능의 사용 설명

3.1 이미지 이해 기능:

  • 여러 이미지 형식 입력 지원
  • 최대 1120x1120 해상도의 이미지 처리
  • 상세한 이미지 콘텐츠 설명 및 분석 제공

3.2 GUI 자동화:

  • 인터페이스 요소 인식 지원
  • 클릭, 드래그 앤 드롭, 입력 및 기타 작업을 수행합니다.
  • 작업 유효성 검사 및 오류 처리 메커니즘 제공

3.3 시각적 질문 및 답변 기능:

  • 자연어 질문 지원
  • 이미지 관련 상세 답변 제공
  • 복잡한 추론 문제 처리 가능

4. 성능 최적화 권장 사항

4.1 메모리 관리:

  • 적절한 배치 크기 사용
  • 사용하지 않는 모델 인스턴스를 적시에 정리하세요.
  • 동시 처리 작업 수 제어

4.2 추론 속도 최적화:

  • FP16 정밀도를 사용한 추론 가속화
  • 모델 정량화를 활성화하여 리소스 사용량 절감
  • 이미지 전처리 프로세스 최적화하기

5. 일반적인 문제 해결

5.1 메모리 문제:

  • 비디오 메모리 사용량 확인
  • 배치 크기를 적절하게 조정
  • 그라데이션 체크포인트 기법 사용

5.2 정확도 문제:

  • 입력 이미지 품질 보장
  • 모델 매개변수 구성 조정
  • 전처리 단계가 올바른지 확인합니다.

주요 기능

  • 원스텝 작업간단한 자연어 명령을 통해 애플리케이션 열기, 버튼 클릭 등과 같은 단일 단계 작업을 수행합니다.
  • 다단계 작업순차적 지침을 통해 복잡한 다단계 운영 작업과 자동화된 워크플로우를 지원합니다.
  • 작업 기록 및 재생사용자 작업 기록을 기록하고 디버깅 및 최적화를 위한 재생 기능을 지원합니다.
  • 오류 처리원활한 작업 완료를 위해 일반적인 작동 오류를 식별하고 처리하는 오류 처리 메커니즘이 내장되어 있습니다.

주요 기능

  • 효율적인 추론BF16 정확도에서는 모델 추론에 최소 29GB의 GPU 메모리가 필요하며, A100 또는 H100 GPU를 권장합니다.
  • 유연한 배포허깅페이스, 모델스코프, 와이즈모델 등 다양한 하드웨어 플랫폼에서의 배포를 지원합니다.
  • 커뮤니티 지원개발자가 빠르게 시작할 수 있도록 기술 지원과 질문에 대한 답변을 제공하는 활발한 오픈 소스 커뮤니티입니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...