미스트랄 3 - 미스트랄 AI, 오픈 소스의 최신 멀티모달 대형 모델 시리즈 출시
미스트랄 3는 미스트랄 AI가 오픈소스로 공개한 최신 멀티모달 대형 모델 시리즈로, 플래그십 모델인 미스트랄 대형 3(총 파라미터 675B)와 이미지 이해 기능을 지원하는 미니스트랄 시리즈의 경량 버전(3B/8B/14B)으로 구성된다...
Vidi2 - ByteHop의 오픈 소스 멀티모달 비디오 이해 및 대규모 모델 생성 솔루션
Vidi2는 비디오 콘텐츠 이해, 분석 및 생성에 중점을 둔 2세대 멀티모달 비디오 이해 및 생성 빅모델로, ByteDance에서 오픈소스화했습니다. 텍스트, 비디오 및 오디오 모달리티의 공동 입력을 지원하며, 사진 콘텐츠, 사운드 정보 및 자연어 명령을 동시에 이해하여 모달 간 상호 작용 및 푸시 기능을 구현할 수 있습니다.
알파마요-R1 - 추론 기능을 갖춘 NVIDIA의 오픈 소스 비전-언어-액션 모델
알파마요-R1은 복잡한 시나리오에서 자율 주행의 의사 결정 능력을 향상시키기 위해 설계된 추론 기능을 갖춘 엔비디아가 개발한 시각-언어-행동(VLA) 모델입니다. 인과 관계 추론 메커니즘을 도입하여 차량은 시나리오 인과 관계(예: "때문에")를 분석할 수 있습니다.
Ovis-Image - Ali AIDC-AI 팀의 오픈 소스 벤처 그래프 모델
Ovis-Image는 알리바바 인터내셔널 디지털 커머스 그룹의 AIDC-AI 팀이 오픈소스화한 70억 개의 파라미터로 구성된 텍스트 생성 그래프 모델로, 고품질 텍스트 렌더링에 중점을 두고 있습니다. Ovis-U1 아키텍처를 기반으로 고급 시각 디코더와 양방향 토큰 리파이너를 계승합니다.
Wujie-Emu3.5 - 위즈덤 소스 연구소 오픈 소스 멀티모달 월드 빅 모델
우지에-이뮤3.5는 베이징 지위안 인공지능 연구소의 오픈 소스 멀티모달 월드 매크로 모델로, 340억 개의 레퍼런스와 네이티브 월드 모델링 기능을 갖추고 있습니다. 10조 개의 멀티모달 토큰(790년 분량의 비디오 데이터 포함)으로 훈련된 이 모델은 물리 법칙을 시뮬레이션하고 그래픽 생성, 시각적 안내를 달성할 수 있습니다....
GELab-Zero - 스텝스 팀의 오픈 소스 엔드사이드 멀티모달 GUI 에이전트 모델
GELab-Zero는 4B 매개 변수가있는 Qwen3-VL-4B-Instruct 기본 모델을 기반으로 구축 된 Step Leap 팀의 오픈 소스 엔드 사이드 멀티 모달 GUI 에이전트 모델로, UI 요소를 인식하고 클릭, 슬라이드 등의 작업을 수행하고 교차 애플리케이션 작업을 지원합니다....
Depth Anything 3 - 바이트홉 시드 오픈소스를 위한 3D 시각적 재구성 모델
뎁스 애니씽 3(DA3)은 Byte Jump Seed 팀이 개발하여 오픈소스화한 3D 시각적 재구성 모델입니다. 단일 트랜스포머 아키텍처를 통해 모든 시점에서 공간 지오메트리를 재구성할 수 있으며, 뎁스 맵과 레이 맵만 예측하면 3D 장면을 복원할 수 있습니다.
DeepSeek-Math-V2 - 딥시크 오픈 소스 수학적 추론 모델
DeepSeek-Math-V2는 팬텀 큐브 산하의 인공지능 회사 딥시크의 오픈소스 수학 추론 모델로, 최신 버전은 딥시크-V3.2-Exp-Base를 기반으로 개선되어 제미니 딥씽크의 성능을 능가하는 국제적인 수치를 달성했습니다....
Z-Image - 알리 통이 연구소의 오픈 소스 이미지 생성 모델
Z-Image는 효율적이고 빠르며 강력한 이미지 생성 기능을 갖춘 알리 통이 연구소의 오픈 소스 이미지 생성 모델입니다. 단일 스트림 확산 트랜스포머 아키텍처(S3-DiT)를 사용하여 텍스트, 시각적 의미 및 이미지 VAE 토큰을 통합된 입력 스트림으로 통합합니다....
ROCK - 지능형 신체 훈련 환경을 위한 알리바바의 오픈 소스 샌드박스
ROCK(Reinforcement Open Construction Kit)은 알리바바의 인공지능 훈련 환경을 위한 오픈소스 샌드박스로, 실제 환경에서 인공지능을 대규모로 훈련할 수 없는 문제를 해결하며, 매우 안정적인 샌드박스 관리 서비스를 제공합니다....









