InternVL3.5 - 상하이 AI 랩 오픈 소스 멀티모달 대형 모델

48.9K 00

InternVL 3.5란 무엇인가요?

InternVL3.5는 상하이 인공 지능 연구소(SAL)의 오픈 소스 멀티모달 대형 모델로 일반 능력, 추론 능력 및 배포 효율성 측면에서 종합적으로 업그레이드되어 10억 개에서 2410억 개의 파라미터를 제공하는 9가지 사이즈로 밀도 모델, 전문가 혼합 모델(MoE) 등 다양한 자원 수요 시나리오를 커버하며 GPT-OSS 언어 및 모델 기반을 지원하는 최초의 오픈 소스 멀티모달 대형 모델입니다. InternVL3.5는 '오프라인 워밍업-온라인 미세 조정'의 2단계 과정을 통해 추론 능력을 크게 향상시키는 캐스케이드 강화 학습(Cascade RL) 프레임워크를 채택하고 있습니다. GUI, 구현된 공간 추론, 벡터 그래픽 처리의 핵심 기능이 강화되었습니다. 예를 들어, ScreenSpot GUI 포지셔닝 작업에서 이 모델은 92.9점으로 주류 오픈 소스 모델보다 뛰어난 성능을 보였습니다.

InternVL 3.5의 특징

강력한 멀티모달 감지 기능이미지, 동영상 등 다양한 시각 정보를 이해하고 처리하며 관련 텍스트 설명을 생성할 수 있어 콘텐츠 제작, 지능형 고객 서비스 및 기타 분야에 적합합니다.
뛰어난 멀티모달 추론 성능교육, 연구 및 기타 시나리오에 적합한 수학적-물리적 문제 해결, 논리적 추론 등과 같은 복잡한 복합 추론 작업을 처리할 수 있는 다학제 추론 벤치마크 테스트에서 뛰어난 성능을 발휘합니다.
효율적인 텍스트 처리 기능텍스트 추론 및 Q&A와 같은 자연어 처리 작업에 탁월하며 지능형 글쓰기 및 텍스트 분석과 같은 애플리케이션을 위한 고품질 텍스트 생성 및 분석 기능을 제공합니다.
고급 GUI 지능형 바디 기능인터페이스 요소는 여러 플랫폼에서 자동화할 수 있어 문서 복구, PDF 내보내기, 이메일 전송과 같은 작업을 수행하여 사무 자동화를 개선할 수 있습니다.
뛰어난 공간 추론 구현물리적 공간 관계 이해 및 탐색을 지원하여 로봇 내비게이션, 스마트 홈 제어와 같은 구현된 인텔리전스 시나리오에 적용하여 디바이스의 자율성과 지능을 향상시킬 수 있습니다.
매우 효율적인 벡터 그래픽 처리자연어 명령을 기반으로 벡터 그래픽을 생성하거나 편집할 수 있어 웹 디자인 및 엔지니어링 도면 분석과 같은 전문적인 시나리오에 적합하며 설계 및 분석의 효율성을 향상시킵니다.
유연한 모델 배포 옵션다양한 리소스 요구 사항과 애플리케이션 시나리오를 충족하기 위해 10억 개에서 2,410억 개의 파라미터에 이르는 광범위한 모델 크기를 사용할 수 있으며, 고밀도 모델과 혼합 전문 모델(MoE)을 지원합니다.

InternVL 3.5의 핵심 이점

계단식 강화 학습 프레임워크'오프라인 워밍업 - 온라인 미세 조정'의 2단계 프로세스는 하이브리드 선호도 최적화(MPO) 및 GSPO 알고리즘과 결합하여 모델의 추론 능력과 학습 안정성을 크게 향상시킵니다.
동적 시각적 해상도 라우팅각 이미지 슬라이스에 대한 압축률을 동적으로 선택하면 주요 정보를 보존하면서 시각적 토큰을 줄여 성능 손실 없이 추론 속도를 크게 향상시킬 수 있습니다.
분리된 배포 아키텍처새로운 디자인은 BF16 정밀 기능 전송과 비동기 파이프라이닝의 조합을 기반으로 하며, 시각 인코더와 언어 모델을 서로 다른 GPU에 배치하여 처리량을 크게 늘리고 기존 직렬 배포의 리소스 차단 문제를 해결합니다.
본격적인 모델 최적화다양한 리소스 수요 시나리오를 포괄하는 10억 개에서 2410억 개의 매개변수까지 광범위한 모델 크기를 제공하며, 다양한 애플리케이션 요구 사항을 충족하기 위해 고밀도 모델과 혼합 전문 모델(MoE)을 지원합니다.
뛰어난 멀티모달 추론다학제적 추론 벤치마크 MMMU에서 오픈소스 모델로는 최고 점수를 획득하여 강력한 수학적, 논리적 추론 능력을 갖춘 기존 오픈소스 모델을 크게 앞질렀습니다.
효율적인 배포 효율성고해상도 입력을 통해 모델의 응답 속도가 크게 향상되고 38B 모델의 처리량이 4.05배 향상되어 실제 배포 비용이 크게 절감됩니다.

InternVL3.5의 공식 웹사이트는 무엇인가요?

깃허브 리포지토리:: https://github.com/OpenGVLab/InternVL
허깅페이스 모델 주소:: https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
기술 보고서:: https://huggingface.co/papers/2508.18265
온라인 체험 주소:: https://chat.intern-ai.org.cn/

InternVL3.5의 대상 사용자

인공 지능 연구원이 모델은 연구자들에게 새로운 알고리즘, 모델 아키텍처 및 응용 시나리오를 탐색하는 데 사용할 수 있는 강력한 멀티모달 연구 도구를 제공하여 멀티모달 AI의 학술 연구를 발전시킵니다.
소프트웨어 개발자개발자는 오픈 소스 코드와 유연한 배포 옵션을 사용하여 이 모델을 다양한 소프트웨어 애플리케이션에 통합하고 지능형 상호 작용 기능을 갖춘 제품과 서비스를 개발할 수 있습니다.
교육자 및 학생교육 분야에서는 이 모델의 복합 추론 및 텍스트 처리 기능을 사용하여 학생들이 복잡한 주제 문제를 더 잘 이해하고 해결할 수 있도록 도와주는 지능형 튜터링 도구를 개발할 수 있습니다.
콘텐츠 크리에이터콘텐츠 제작자는 멀티모달 인식 및 텍스트 생성 기능을 사용하여 이미지 설명, 동영상 캡션, 기사 등과 같은 창의적인 콘텐츠를 빠르게 생성하여 창작 효율성을 향상시킬 수 있습니다.
사무 자동화 사용자GUI 기능을 통해 사용자는 크로스 플랫폼 오피스 운영을 자동화하고 업무 효율성을 개선하며 반복적인 작업을 줄일 수 있습니다.