MiMo-VL - 샤오미의 오픈 소스 멀티모달 모델

48.3K 00

MiMo-VL이란?

MiMo-VL은 비주얼 코더, 크로스 모달 프로젝션 레이어 및 언어 모델로 구성된 Xiaomi의 오픈 소스 멀티모달 그랜드 모델입니다. 비주얼 코더는 기본 해상도 입력을 지원하고 더 많은 디테일을 보존하는 Qwen2.5-ViT를 기반으로 하며, 언어 모델은 복잡한 추론에 최적화된 Xiaomi의 자체 개발 MiMo-7B를 사용합니다. 이 모델은 이미지-텍스트 쌍, 비디오-텍스트 쌍, GUI 조작 시퀀스 등의 데이터 유형을 포함하는 2.4T 토큰의 멀티모달 데이터로 훈련된 다단계 사전 훈련 전략을 기반으로 합니다. 하이브리드 온라인 강화 학습(MORL) 알고리즘을 기반으로 모델의 추론, 지각 성능 및 사용자 경험이 모든 측면에서 개선되었습니다. MiMo-VL은 복잡한 이미지 추론, GUI 상호 작용, 비디오 이해, 긴 문서 구문 분석에서 우수한 성능을 발휘하며, 예를 들어 MMMU-val에서 66.7%를 달성하여 Gemma 3 27B, OlympiadBench에서 59.4%를 뛰어넘는 성능을 발휘합니다. 올림피아드벤치에서 59.4%를 달성하여 72B 모델을 능가합니다.

MiMo-VL의 주요 기능

복잡한 그림 추론 및 퀴즈복잡한 그림의 내용을 정확하게 이해하고 합리적인 설명과 답을 제시합니다.
GUI 조작 및 상호 작용복잡한 명령을 이해하고 실행할 수 있도록 최대 10단계 이상의 GUI 작업을 지원합니다.
비디오 및 언어 이해언어와 함께 동영상 콘텐츠를 이해하고 추론하고 퀴즈를 풀 수 있습니다.
긴 문서 구문 분석 및 추론복잡한 추론과 정보 추출을 위해 긴 문서를 처리합니다.
사용자 경험 최적화하이브리드 온라인 강화 학습을 기반으로 추론, 지각 성능 및 사용자 경험을 개선합니다.

MiMo-VL의 공식 웹사이트 주소

깃허브 리포지토리::https://github.com/XiaomiMiMo/MiMo-VL
허깅페이스 모델 라이브러리::https://huggingface.co/collections/XiaomiMiMo/mimo-vl
기술 문서::https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report

MiMo-VL 사용 방법

허깅 페이스 플랫폼::
- 포옹하는 얼굴 모델 라이브러리에 액세스MiMo-VL에 대한 액세스포옹하는 얼굴 모델 라이브러리페이지.
- 모델 로드: Hugging Face의 Python 라이브러리를 사용하여 MiMo-VL 모델을 로드합니다. 예시:

from transformers import AutoModelForVision2Seq, AutoProcessor

model = AutoModelForVision2Seq.from_pretrained("XiaomiMiMo/mimo-vl")
processor = AutoProcessor.from_pretrained("XiaomiMiMo/mimo-vl")

- 입력 데이터 처리이미지, 동영상, 텍스트 등의 입력 데이터는 프로세서에 따라 사전 처리됩니다.
- 출력 생성: 처리된 데이터를 모델에 입력하고 모델의 출력을 얻습니다.
GitHub 리포지토리::
- GitHub 리포지토리 복제하기액세스GitHub 리포지토리를 클릭하고 리포지토리를 로컬로 복제합니다.

git clone https://github.com/XiaomiMiMo/MiMo-VL.git

- 종속성 설치리포지토리의 요구사항.txt 파일에 따라 필요한 Python 종속성을 설치합니다.

pip install -r requirements.txt

- 실행 중인 코드: 리포지토리의 지침에 따라 샘플 코드를 실행하거나 애플리케이션을 엽니다.

MiMo-VL의 핵심 이점

강력한 멀티모달 융합 기능이미지, 비디오, 텍스트 등의 멀티모달 데이터를 처리하여 복잡한 시나리오를 이해합니다.
뛰어난 추론 성능MMMU-val에서 66.71 TP3T, OlympiadBench에서 59.41 TP3T 등 여러 벤치마크에서 우수한 성능을 보였습니다.
사용자 경험 최적화혼합 온라인 강화 학습(MORL)을 기반으로 사용자 피드백에 따라 모델 동작을 동적으로 조정하여 사용자 경험을 향상시킵니다.
광범위한 애플리케이션 시나리오스마트 고객 서비스, 스마트 홈, 과학 연구 등 다양한 분야에 적용 가능.
오픈 소스 및 커뮤니티 지원개발자의 연구 개발을 촉진하기 위해 오픈 소스 코드와 커뮤니티 지원을 제공합니다.

MiMo-VL의 대상 사용자

AI 연구원멀티모달 융합, 복합 추론, 시각 및 언어 이해 분야의 연구에 중점을 둡니다.
개발자 및 엔지니어스마트 고객 서비스, 스마트 홈, 스마트 헬스케어 등과 같은 스마트 애플리케이션을 개발하려면 멀티모달 기능의 통합이 필요합니다.
데이터 과학자모델 성능 및 데이터 처리 효율성 향상을 위한 멀티모달 데이터 처리 및 분석.
교육자 및 학생수학 문제 풀이, 프로그래밍 학습 등 교육 및 학습에 도움을 줍니다.
의료 전문가의료 이미지 분석 및 텍스트 이해를 지원하여 진단 효율성과 정확성을 향상시킵니다.