AI 공유 서클

AI가 세상을 바꾸고 있습니다!
PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - NU United Bytes 오픈 소스 단일 피규어 3D 생성 모델

PartCrafter는 북경대학교, 바이트댄스, 카네기멜론대학교가 공동으로 제안한 고급 3D 생성 모델입니다. 단일 RGB 이미지에서 의미적으로 명확하고 기하학적으로 다양한 3D 메시 파트를 한 번에 여러 개 생성할 수 있습니다. 이 모델은 조합 잠재 공간을 통해 모델링되며 ...
4개월 전
026.1K
GigaWorld-0 - 极佳视界开源的世界模型框架

기가월드-0 - 기가비전 오픈 소스 월드 모델링 프레임워크

기가월드-0는 국내 임베디드 인텔리전스 스타트업 기가AI의 오픈소스 월드 모델 프레임워크로, 주로 임베디드 인텔리전스(구현형 AI) 분야의 데이터 병목 문제를 해결하는 데 사용됩니다. 고품질의 다양하고 물리적으로 사실적인 학습 데이터를 효율적으로 생성하고, 푸시...
4개월 전
025K
Mistral 3 - Mistral AI发布开源的最新多模态大模型系列

미스트랄 3 - 미스트랄 AI, 오픈 소스의 최신 멀티모달 대형 모델 시리즈 출시

미스트랄 3는 미스트랄 AI가 오픈소스로 공개한 최신 멀티모달 대형 모델 시리즈로, 플래그십 모델인 미스트랄 대형 3(총 파라미터 675B)와 이미지 이해 기능을 지원하는 미니스트랄 시리즈의 경량 버전(3B/8B/14B)으로 구성된다...
4개월 전
023.2K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - ByteHop의 오픈 소스 멀티모달 비디오 이해 및 대규모 모델 생성 솔루션

Vidi2는 비디오 콘텐츠 이해, 분석 및 생성에 중점을 둔 2세대 멀티모달 비디오 이해 및 생성 빅모델로, ByteDance에서 오픈소스화했습니다. 텍스트, 비디오 및 오디오 모달리티의 공동 입력을 지원하며, 사진 콘텐츠, 사운드 정보 및 자연어 명령을 동시에 이해하여 모달 간 상호 작용 및 푸시 기능을 구현할 수 있습니다.
4개월 전
027K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

알파마요-R1 - 추론 기능을 갖춘 NVIDIA의 오픈 소스 비전-언어-액션 모델

알파마요-R1은 복잡한 시나리오에서 자율 주행의 의사 결정 능력을 향상시키기 위해 설계된 추론 기능을 갖춘 엔비디아가 개발한 시각-언어-행동(VLA) 모델입니다. 인과 관계 추론 메커니즘을 도입하여 차량은 시나리오 인과 관계(예: "때문에")를 분석할 수 있습니다.
4개월 전
034.9K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Ali AIDC-AI 팀의 오픈 소스 벤처 그래프 모델

Ovis-Image는 알리바바 인터내셔널 디지털 커머스 그룹의 AIDC-AI 팀이 오픈소스화한 70억 개의 파라미터로 구성된 텍스트 생성 그래프 모델로, 고품질 텍스트 렌더링에 중점을 두고 있습니다. Ovis-U1 아키텍처를 기반으로 고급 시각 디코더와 양방향 토큰 리파이너를 계승합니다.
4개월 전
022.9K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - 위즈덤 소스 연구소 오픈 소스 멀티모달 월드 빅 모델

우지에-이뮤3.5는 베이징 지위안 인공지능 연구소의 오픈 소스 멀티모달 월드 매크로 모델로, 340억 개의 레퍼런스와 네이티브 월드 모델링 기능을 갖추고 있습니다. 10조 개의 멀티모달 토큰(790년 분량의 비디오 데이터 포함)으로 훈련된 이 모델은 물리 법칙을 시뮬레이션하고 그래픽 생성, 시각적 안내를 달성할 수 있습니다....
4개월 전
026.5K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - 스텝스 팀의 오픈 소스 엔드사이드 멀티모달 GUI 에이전트 모델

GELab-Zero는 4B 매개 변수가있는 Qwen3-VL-4B-Instruct 기본 모델을 기반으로 구축 된 Step Leap 팀의 오픈 소스 엔드 사이드 멀티 모달 GUI 에이전트 모델로, UI 요소를 인식하고 클릭, 슬라이드 등의 작업을 수행하고 교차 애플리케이션 작업을 지원합니다....
4개월 전
033.9K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - 바이트홉 시드 오픈소스를 위한 3D 시각적 재구성 모델

뎁스 애니씽 3(DA3)은 Byte Jump Seed 팀이 개발하여 오픈소스화한 3D 시각적 재구성 모델입니다. 단일 트랜스포머 아키텍처를 통해 모든 시점에서 공간 지오메트리를 재구성할 수 있으며, 뎁스 맵과 레이 맵만 예측하면 3D 장면을 복원할 수 있습니다.
4개월 전
035.3K
DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2 - 딥시크 오픈 소스 수학적 추론 모델

DeepSeek-Math-V2는 팬텀 큐브 산하의 인공지능 회사 딥시크의 오픈소스 수학 추론 모델로, 최신 버전은 딥시크-V3.2-Exp-Base를 기반으로 개선되어 제미니 딥씽크의 성능을 능가하는 국제적인 수치를 달성했습니다....
4개월 전
028.3K