GLM-4.6V - Wisdom Spectrum AI 오픈 소스 멀티모달 대규모 언어 모델 시리즈

GLM-4.6V란 무엇인가요?

GLM-4.6V는 스마트 스펙트럼 AI의 오픈 소스 멀티모달 대규모 언어 모델 시리즈로, 두 가지 버전으로 구성되어 있습니다:GLM-4.6V(106B-A12B)클라우드 및 고성능 클러스터 시나리오를 위한 기본 버전인 혼합 전문가(MoE) 아키텍처는 총 파라미터가 약 1060억 개, 활성 파라미터가 120억 개이며 대규모 멀티모달 작업을 처리하는 데 적합합니다.GLM-4.6V-Flash(9B).로컬 배포 및 지연 시간이 짧은 애플리케이션을 위한 경량 버전은 90억 개의 매개 변수로 소비자급 하드웨어에서 실행할 수 있으며 빠른 추론과 실시간 상호 작용을 지원합니다. 이 모델은 30개 이상의 주요 멀티모달 평가 벤치마크(예: MMBench 및 MathVista)에서 우수한 성능을 발휘하며, 동일한 파라미터 규모에서의 성능은 현재 멀티모달 대형 모델 분야에서 최첨단 성과인 SOTA 수준에 도달합니다.

GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V의 기능적 특징

기본 멀티모달 도구 호출 기능이미지, 스크린샷 등을 텍스트로 변환하지 않고 도구 매개변수로 바로 사용할 수 있으며, 도구가 반환한 시각적 결과를 후속 추론에 직접 관여하여 완전한 인식-이해-실행의 폐쇄형 루프를 형성할 수 있습니다.
매우 긴 컨텍스트 창컨텍스트 창은 훈련 중에 128k 토큰까지 확장되며, 긴 문서, 동영상, 복잡한 다이어그램과 같은 멀티모달 콘텐츠를 처리하여 이전 입력의 기억과 교차 모드 추론을 보존할 수 있습니다.
고성능과 저렴한 비용이전 세대 GLM-4.5V와 비교하여 API 호출 가격이 50% 감소하여 입력은 백만 토큰당 1달러, 출력은 백만 토큰당 3달러로 성능과 비용의 균형을 맞췄습니다.
널리 사용되는 시나리오혼합 배열 그래픽 제작, 시각 중심 쇼핑 가이드, 프런트엔드 복제 및 인터랙션 개발, 긴 문서/비디오 이해와 같은 작업을 지원하여 멀티모달 에이전트 애플리케이션을 위한 기술적 토대를 제공합니다.

GLM-4.6V의 핵심 이점

기본 도구 호출 기능도구 호출 기능이 최초로 시각적 모델에 기본적으로 통합되어 이미지와 스크린샷과 같은 멀티모달 데이터를 텍스트 설명으로 먼저 변환할 필요 없이 도구의 입력 파라미터로 바로 사용할 수 있습니다. 도구가 반환하는 시각적 결과(예: 차트, 웹페이지 스크린샷)는 모델에서 직접 파싱하여 추론 체인에 통합함으로써 '인식-이해-실행'의 완전한 폐쇄 루프를 형성하여 멀티모달 작업의 처리 효율과 정확성을 크게 향상시킬 수 있습니다.
매우 긴 컨텍스트 처리 기능컨텍스트 창은 128k 토큰까지 확장되며 최대 150페이지, 200페이지의 PPT 또는 1시간 분량의 동영상까지 복잡한 문서를 처리할 수 있어 초기 입력의 메모리를 유지하고 긴 문서 분석 및 동영상 이해와 같은 시나리오에 대한 교차 이미지 및 교차 문서 추론을 수행할 수 있습니다.
매우 정확한 시각적 이해차트 인식, 필기 텍스트 인식, 문자 인식, 물체 재질 판별 등 시각적 작업에 탁월한 성능을 발휘하며 착시 현상을 현저히 줄여줍니다. 임의의 종횡비 및 4K 해상도 이미지 입력을 지원하며 비표준 크기 이미지(예: UI 스크린샷, 스캔 문서)에 대한 강력한 처리 능력을 갖췄습니다.
멀티 모달 출력 기능출력은 더 이상 텍스트에 국한되지 않고 이미지, 표, 웹 페이지 스크린샷 등을 포함한 혼합 텍스트 콘텐츠를 생성할 수 있으며 이러한 결과를 선별, 통합 및 품질 관리할 수 있어 콘텐츠 제작, 그래픽 보고서 생성 및 기타 시나리오에 적합합니다.
프로그래밍 및 프론트엔드 개발 지원프론트엔드 시나리오에 최적화되어 웹페이지 스크린샷이나 디자인을 업로드하여 픽셀 단위의 정확한 HTML/CSS 코드를 생성하고, 스크린샷을 기반으로 여러 차례의 시각적 상호작용 디버깅을 지원하며, 코드 조각을 자동으로 찾아 수정하여 프론트엔드 개발 효율성을 향상시킬 수 있습니다.
비용 효율적인 이점이전 세대 모델에 비해 API 호출 가격이 50% 감소하여 입력은 백만 토큰당 1달러, 출력은 3달러에 불과하므로 대규모 이미지 입력 시나리오에 더 적합합니다. 경량 버전(9b 매개변수)은 소비자용 GPU에서 실행할 수 있어 배포 임계값을 낮췄습니다.
오픈 소스 및 에코시스템 지원완전 오픈 소스이며, 모델 가중치, 추론 코드 및 샘플 프로젝트를 제공하고, 주류 추론 프레임워크(예: VLLM, SGLang, XLLM)를 지원하며, GPU 및 가정용 NPU 환경에 배포할 수 있어 개발자가 쉽게 맞춤형으로 개발하여 기존 시스템에 통합할 수 있습니다.
선도적인 성능GLM-4.6V-Flash의 9b 버전은 전체 성능에서 Qwen3-VL-8B를 능가하며, 106b 파라미터 버전은 파라미터 수가 2배 많은 Qwen3-VL-235B보다 성능이 뛰어납니다.

GLM-4.6V의 공식 웹사이트는 무엇인가요?

GitHub 리포지토리:: https://github.com/zai-org/GLM-V
허깅페이스 모델 라이브러리:: https://huggingface.co/collections/zai-org/glm-46v
기술 문서:: https://z.ai/blog/glm-4.6v

GLM-4.6V의 대상 사용자

프런트엔드 개발자이 모델은 웹페이지 스크린샷이나 디자인을 업로드하여 고품질 HTML/CSS/JS 코드를 생성하고, 다단계 인터랙션 수정을 지원하고, '디자인에서 실행 가능한 페이지'로 연결되는 링크를 단축하고, 프론트엔드 개발의 효율성을 향상시킬 수 있는 프론트엔드 재생산 및 다단계 시각적 상호 작용 개발 기능을 최적화합니다.
문서 및 비디오 프로세서긴 문서(예: 상장 기업의 재무 보고서)와 긴 동영상을 처리하고, 문서 전체에서 균일하게 핵심 지표를 추출하고, 보고서와 차트에서 숨겨진 신호를 파악하여 자동으로 비교 분석 표로 요약할 수 있으며, 긴 동영상에서 글로벌 콤빙과 세분화된 추론을 수행하여 핵심 시점을 정확히 파악할 수 있어 복잡한 내용을 이해하고 연구하는 데 적합합니다.
멀티모달 지능형 고객 서비스 개발자시각적 정보와 텍스트 정보를 결합하여 정확한 답변과 제안을 제공하고 다각적인 대화를 지원함으로써 고객 서비스 효율성을 높이고 사용자에게 보다 포괄적이고 정확한 서비스를 제공할 수 있습니다.
연구원 및 데이터 분석가과학 연구 및 데이터 분석 분야에서 논문, 연구 보고서 등 복잡한 멀티모달 데이터를 처리하여 핵심 정보를 추출하고 데이터 분석 및 추론을 수행하며 과학 연구 및 의사 결정을 지원할 수 있습니다.
교육자예시 교육 자료 생성, 복잡한 학습 문서 구문 분석 등 교육 콘텐츠의 제작 및 지원에 사용되어 학생들이 지식을 더 잘 이해하고 숙달할 수 있도록 도와줍니다.
AI 개발자 및 연구원오픈 소스 모델로서, AI 개발자와 연구자가 멀티모달 AI의 새로운 애플리케이션과 기술 혁신을 탐구하기 위한 추가 연구 개발에 사용할 수 있는 강력한 기술 기반을 제공합니다.