Qwen3-Max-Preview - 통이 첸첸의 플래그십 빅 언어 모델
Qwen3-Max-Preview는 통이췐웬에서 출시한 최신 플래그십 대형 언어 모델입니다. Qwen3 제품군에서 가장 많은 파라미터를 가진 모델로, 파라미터 크기가 1조 개가 넘습니다. 이 모델은 추론, 명령어 추종, 다국어 지원 및 롱테일 지식 범위에서 상당한 개선을 이루었습니다...
OneCAT - 메이퇀과 상하이교통대학교를 위한 오픈 소스 멀티모달 모델
원캣은 메이투안이 상하이교통대학교와 함께 출시한 새로운 통합 멀티모달 모델로, 멀티모달 이해, 텍스트-이미지 생성, 이미지 편집 기능을 원활하게 통합하는 순수 디코더 아키텍처를 채택하고 있습니다. 이 모델은 외부 시각 코더와 모달리티별 디스모게이터에 의존하는 기존 멀티모달 모델의 설계를 버리고 모달리티별 ...
Claudable - 오픈 소스 AI 웹 애플리케이션 빌더, 자연어 생성 코드
클라우더블은 Next.js 기반의 오픈 소스 웹 앱 빌더로, 클루드 코드와 커서 CLI의 고급 AI 에이전트 기능과 러블의 간단하고 직관적인 앱 빌드 경험을 결합합니다....
FineVision - Hugging Face에서 출시한 오픈 소스 시각 언어 데이터 세트
FineVision은 고급 시각 언어 모델 학습을 위한 허깅 페이스의 오픈 소스 시각 언어 데이터 세트입니다. 여기에는 1,730만 개의 이미지, 2,430만 개의 샘플, 8,890만 건의 대화, 95억 개의 답변 토큰이 포함되어 있습니다. 데이터 세트는 다음과 같이 집계됩니다...
HunyuanWorld-Voyager - 텐센트 오픈 소스 초장거리 로밍 세계 모델
후위안 월드-보이저(줄여서 후위안 보이저)는 텐센트에서 출시한 업계 최초의 초장거리 로밍 월드 모델로, 네이티브 3D 재구성을 지원합니다. 단일 이미지에서 사용자 정의 카메라 경로의 3D 포인트 클라우드 시퀀스를 생성하는 새로운 비디오 확산 프레임워크로, 다음을 지원합니다.
Hunyuan-MT-7B - 텐센트 혼합 메타 오픈 소스 경량 번역 모델
Hunyuan-MT-7B는 텐센트 혼합 메타 팀이 도입한 경량 번역 모델로 70억 개의 레퍼런스를 보유하고 있으며 광둥어, 위구르어, 티베트어를 포함한 33개 언어와 5개 중국 민속 언어/방언의 상호 번역을 지원합니다. 국제 컴퓨터 언어학 협회(ACL) WMT2025 대회에서...
스텝오디오 2 미니 - 스텝스타 오픈 소스 음성 매크로 모델링
스텝오디오 2 미니는 스텝오디오의 오픈 소스 엔드투엔드 음성 매크로 모델입니다. 기존의 음성 모델 구조를 깨고 진정한 엔드투엔드 멀티모달 아키텍처를 채택하여 원시 오디오 입력을 짧은 지연 시간으로 음성 응답 출력으로 직접 변환하고 언어학적 정보 및 비음성 신호를 이해합니다.
MobileCLIP2 - Apple의 효율적인 오픈 소스 엔드사이드 멀티모달 모델
MobileCLIP2는 Apple 연구진이 개발한 효율적인 엔드-사이드 멀티모달 모델인 MobileCLIP의 업그레이드 버전입니다. 멀티모달 강화 훈련에 최적화된 이 모델은 DFN 데이터 세트에서 더 나은 성능을 훈련하고 그래픽 생성 기능을 개선하여 CLIP 교사 모델을 통합합니다.
InternVL3.5 - 상하이 AI 랩 오픈 소스 멀티모달 대형 모델
InternVL3.5(Shusheng-Wanxiang 3.5)는 상하이 인공 지능 연구소의 오픈 소스 멀티 모달 대형 모델로, 일반 능력, 추론 능력 및 배포 효율성 측면에서 완전히 업그레이드되어 10억에서 2410억 개의 매개 변수까지 9가지 크기의 버전을 제공하며, 두께를 포함한 다양한 리소스 수요 시나리오를 포괄합니다....
FastVLM - Apple의 시각 언어 모델링
FastVLM(Fast Vision Language Model)은 Apple에서 도입한 효율적인 시각 언어 모델입니다. FastViTHD 하이브리드 비주얼 코더를 핵심으로 컨볼루션 및 트랜스포머 아키텍처를 통합하여 시각적...









