일반 소개
몰모는 앨런 인공지능 연구소(Ai2)에서 개발한 멀티모달 오픈 언어 모델입니다. 이 모델은 텍스트 및 시각 데이터 처리 기능을 결합하여 이미지 속 객체를 인식하고 정확한 설명을 생성하며, 여러 벤치마크에서 우수한 성능을 보이며 특히 문서 읽기 및 시각적 추론과 같은 복잡한 작업에서 그 성능을 입증했습니다. Ai2는 이를 Hugging Face에 게시했습니다.모델 및 데이터 세트앞으로 몇 달 안에 더 많은 모델과 확장된 기술 보고서를 출시하여 연구자들에게 더 많은 리소스를 제공할 계획이며, 자세한 내용은 다음 링크에서 확인할 수 있습니다. 기술 보고서.
몰모의 핵심 혁신은 엄선된 100만 개의 이미지-텍스트 쌍으로 구성된 데이터 세트인 PixMo에서 학습된 모델을 통해 완전히 새로운 이미지 설명 데이터 세트를 사용한다는 점입니다. 이 데이터 세트는 음성 설명을 통해 인간 주석가가 독점적으로 수집한 것입니다. 또한, 몰모는 자연어뿐만 아니라 비언어적 단서를 사용하여 질문에 답할 수 있는 혁신적인 2D 포인팅 데이터를 포함하여 미세 조정을 위한 다양한 데이터 세트를 도입했습니다.

몰모는 Qwen2-72B를 기반으로 하며 OpenAI의 CLIP을 시각적 백본으로 사용하여 이미지와 텍스트를 처리하는 모델의 기능을 향상시킵니다.

몰모-72B: 학술 벤치마크 테스트에서 최고 점수를 획득했으며 수동 평가에서는 GPT-4o보다 약간 낮은 2위를 기록했습니다. 또한 다음과 같은 여러 최첨단 독점 시스템보다 우수한 성능을 보였습니다. 쌍둥이자리 1.5 Pro, 플래시 및 Claude 3.5 Sonnet: MolmoE-1B: 가장 효율적인 Molmo 모델로, 완전 개방형 OLMoE-1B-7B 하이브리드 전문가 LLM을 기반으로 하며, 학술 벤치마크와 수동 평가 모두에서 GPT-4V와 거의 동일한 성능을 발휘합니다. 두 Molmo-7B 모델: 학술 벤치마크와 수동 평가 모두에서 GPT-4V와 GPT-4o 사이의 성능을 보이며, 두 벤치마크 모두에서 최근 출시된 Pixtral 12B 모델보다 훨씬 뛰어난 성능을 발휘합니다.

더 많은 가중치 및 데이터 모델 열기
기능 목록
- 이미지 인식: 이미지에서 객체를 인식하고 설명을 생성하는 기능입니다.
- 텍스트 생성: 입력 텍스트 또는 이미지를 기반으로 관련 텍스트 설명을 생성합니다.
- 멀티모달 데이터 처리: 복잡한 작업을 위해 텍스트 데이터와 시각적 데이터를 결합합니다.
- 오픈 소스 리소스: 연구자는 모델 및 데이터 세트에 대한 오픈 소스 리소스를 사용할 수 있습니다.
- 온라인 데모: 사용자가 이미지를 업로드하고 설명을 생성할 수 있는 온라인 데모 기능을 제공합니다.
도움말 사용
사용 가이드라인
- 이미지 인식웹사이트 홈 페이지에서 '이미지 업로드' 버튼을 클릭하고 인식할 이미지 파일을 선택합니다. 업로드 후 시스템에서 이미지 설명을 자동으로 생성합니다.
- 텍스트 생성텍스트 상자에 설명을 생성할 텍스트 또는 질문을 입력하고 '생성' 버튼을 클릭하면 입력 내용에 따라 시스템에서 관련 텍스트 설명을 생성합니다.
- 멀티모달 데이터 처리사용자가 이미지와 텍스트를 모두 업로드하면 시스템에서 두 가지를 결합하여 종합적인 설명을 생성합니다.
- 오픈 소스 리소스몰모 모델을 검색하고 제공된 오픈 소스 리소스를 다운로드하여 사용하려면 허깅 페이스 플랫폼을 방문하세요.
- 온라인 데모홈페이지에서 '온라인 데모' 버튼을 클릭하면 데모 페이지에 접속할 수 있습니다. 이미지를 업로드하거나 텍스트를 입력하여 몰모의 기능을 실시간으로 체험할 수 있습니다.
기능 작동 흐름
- 이미지 인식::
- 몰모 웹사이트를 열고 '이미지 업로드' 버튼을 클릭합니다.
- 인식할 이미지 파일을 선택하고 '업로드'를 클릭합니다.
- 시스템에서 이미지 설명을 처리하고 생성할 때까지 기다리는 중입니다.
- 생성된 설명을 보고 저장합니다.
- 텍스트 생성::
- 텍스트 상자에 설명을 생성할 텍스트 또는 질문을 입력합니다.
- '생성' 버튼을 클릭하고 시스템이 처리될 때까지 기다립니다.
- 생성된 텍스트 설명을 보고 필요에 따라 수정하거나 저장합니다.
- 멀티모달 데이터 처리::
- 이미지와 텍스트를 동시에 업로드하고 '처리' 버튼을 클릭합니다.
- 이 시스템은 이미지와 텍스트 처리를 결합하여 포괄적인 설명을 생성합니다.
- 생성된 복합 설명을 보고 저장합니다.
- 오픈 소스 리소스 사용::
- 허깅 페이스 플랫폼을 방문하여 몰모 모델을 검색하세요.
- 모델과 데이터 세트를 다운로드하고 설치 및 사용 지침을 따르세요.
- 2차 개발이나 연구를 위해 제공된 샘플 코드와 문서를 사용하세요.
© 저작권 정책
文章版权归 AI 공유 서클 所有,未经允许请勿转载。
관련 문서
댓글 없음...