Molmo: Ai2에서 구축한 일련의 멀티모달 오픈 언어 모델

62.5K 00

일반 소개

몰모는 앨런 인공지능 연구소(Ai2)에서 개발한 멀티모달 오픈 언어 모델입니다. 이 모델은 텍스트 및 시각 데이터 처리 기능을 결합하여 이미지 속 객체를 인식하고 정확한 설명을 생성하며, 여러 벤치마크에서 우수한 성능을 보이며 특히 문서 읽기 및 시각적 추론과 같은 복잡한 작업에서 그 성능을 입증했습니다. Ai2는 이를 Hugging Face에 게시했습니다.모델 및 데이터 세트앞으로 몇 달 안에 더 많은 모델과 확장된 기술 보고서를 출시하여 연구자들에게 더 많은 리소스를 제공할 계획이며, 자세한 내용은 다음 링크에서 확인할 수 있습니다. 기술 보고서.

몰모의 핵심 혁신은 엄선된 100만 개의 이미지-텍스트 쌍으로 구성된 데이터 세트인 PixMo에서 학습된 모델을 통해 완전히 새로운 이미지 설명 데이터 세트를 사용한다는 점입니다. 이 데이터 세트는 음성 설명을 통해 인간 주석가가 독점적으로 수집한 것입니다. 또한, 몰모는 자연어뿐만 아니라 비언어적 단서를 사용하여 질문에 답할 수 있는 혁신적인 2D 포인팅 데이터를 포함하여 미세 조정을 위한 다양한 데이터 세트를 도입했습니다.

몰모는 Qwen2-72B를 기반으로 하며 OpenAI의 CLIP을 시각적 백본으로 사용하여 이미지와 텍스트를 처리하는 모델의 기능을 향상시킵니다.

몰모-72B: 학술 벤치마크 테스트에서 최고 점수를 획득했으며 수동 평가에서는 GPT-4o보다 약간 낮은 2위를 기록했습니다. 또한 다음과 같은 여러 최첨단 독점 시스템보다 우수한 성능을 보였습니다. 쌍둥이자리 1.5 Pro, 플래시 및 Claude 3.5 Sonnet: MolmoE-1B: 가장 효율적인 Molmo 모델로, 완전 개방형 OLMoE-1B-7B 하이브리드 전문가 LLM을 기반으로 하며, 학술 벤치마크와 수동 평가 모두에서 GPT-4V와 거의 동일한 성능을 발휘합니다. 두 Molmo-7B 모델: 학술 벤치마크와 수동 평가 모두에서 GPT-4V와 GPT-4o 사이의 성능을 보이며, 두 벤치마크 모두에서 최근 출시된 Pixtral 12B 모델보다 훨씬 뛰어난 성능을 발휘합니다.

더 많은 가중치 및 데이터 모델 열기

기능 목록

이미지 인식: 이미지에서 객체를 인식하고 설명을 생성하는 기능입니다.
텍스트 생성: 입력 텍스트 또는 이미지를 기반으로 관련 텍스트 설명을 생성합니다.
멀티모달 데이터 처리: 복잡한 작업을 위해 텍스트 데이터와 시각적 데이터를 결합합니다.
오픈 소스 리소스: 연구자는 모델 및 데이터 세트에 대한 오픈 소스 리소스를 사용할 수 있습니다.
온라인 데모: 사용자가 이미지를 업로드하고 설명을 생성할 수 있는 온라인 데모 기능을 제공합니다.

도움말 사용

사용 가이드라인

이미지 인식웹사이트 홈 페이지에서 '이미지 업로드' 버튼을 클릭하고 인식할 이미지 파일을 선택합니다. 업로드 후 시스템에서 이미지 설명을 자동으로 생성합니다.
텍스트 생성텍스트 상자에 설명을 생성할 텍스트 또는 질문을 입력하고 '생성' 버튼을 클릭하면 입력 내용에 따라 시스템에서 관련 텍스트 설명을 생성합니다.
멀티모달 데이터 처리사용자가 이미지와 텍스트를 모두 업로드하면 시스템에서 두 가지를 결합하여 종합적인 설명을 생성합니다.
오픈 소스 리소스몰모 모델을 검색하고 제공된 오픈 소스 리소스를 다운로드하여 사용하려면 허깅 페이스 플랫폼을 방문하세요.
온라인 데모홈페이지에서 '온라인 데모' 버튼을 클릭하면 데모 페이지에 접속할 수 있습니다. 이미지를 업로드하거나 텍스트를 입력하여 몰모의 기능을 실시간으로 체험할 수 있습니다.

기능 작동 흐름

이미지 인식::
- 몰모 웹사이트를 열고 '이미지 업로드' 버튼을 클릭합니다.
- 인식할 이미지 파일을 선택하고 '업로드'를 클릭합니다.
- 시스템에서 이미지 설명을 처리하고 생성할 때까지 기다리는 중입니다.
- 생성된 설명을 보고 저장합니다.
텍스트 생성::
- 텍스트 상자에 설명을 생성할 텍스트 또는 질문을 입력합니다.
- '생성' 버튼을 클릭하고 시스템이 처리될 때까지 기다립니다.
- 생성된 텍스트 설명을 보고 필요에 따라 수정하거나 저장합니다.
멀티모달 데이터 처리::
- 이미지와 텍스트를 동시에 업로드하고 '처리' 버튼을 클릭합니다.
- 이 시스템은 이미지와 텍스트 처리를 결합하여 포괄적인 설명을 생성합니다.
- 생성된 복합 설명을 보고 저장합니다.
오픈 소스 리소스 사용::
- 허깅 페이스 플랫폼을 방문하여 몰모 모델을 검색하세요.
- 모델과 데이터 세트를 다운로드하고 설치 및 사용 지침을 따르세요.
- 2차 개발이나 연구를 위해 제공된 샘플 코드와 문서를 사용하세요.