밍플래시 옴니 프리뷰 - 앤트 그룹 오픈 소스 풀 모달 매크로 모델
밍-플래시-옴니-프리뷰는 앤트그룹 인클루전AI가 출시한 오픈소스 풀모달 매크로 모델로, Ling 2.0의 스파스 MoE 아키텍처를 기반으로 총 103억 개의 파라미터와 9억 개의 활성화로 수천억 개의 파라미터 규모를 가지고 있으며 풀모달 이해 및 생성에 있어...
옴니빈치 - NVIDIA의 오픈 소스 옴니모달 대규모 언어 모델
옴니빈치는 아키텍처 혁신과 데이터 최적화를 통해 멀티모달 모델의 모달 파편화 문제를 해결하는 NVIDIA에서 개발한 오픈 소스, 완전 모달, 대규모 언어 모델입니다. 시각 및 오디오 임베딩의 정렬은 일시적으로 임베딩된 그룹 캡처를 활용하는 OmniAlignNet을 통해 향상됩니다.
olmOCR 2 - AI2 오픈 소스 멀티모달 문서 구문 분석 모델
olmOCR 2는 앨런 인공지능 연구소(AI2)의 오픈 소스 멀티모달 문서 구문 분석 모델이며, olmOCR의 업그레이드 버전입니다. 디지털화된 인쇄 문서(예: PDF)는 높은...
ValueCell - 여러 에이전트가 함께 작업하는 오픈 소스 다중 인텔리전스 금융 플랫폼
밸류셀은 AI 기술을 통해 재무 분석 및 투자 관리의 효율성을 향상시키는 오픈 소스 다중 지능체 금융 애플리케이션 플랫폼입니다. 전문 투자 팀을 시뮬레이션하여 여러 AI 지능이 함께 작동하여 시장 분석, 정서 분석, 기초 연구, 자동 거래 및 기타 기능을 포함하여 사용자에게 포괄적 인 기능을 제공합니다.
덱스보틱 - 포스 스피릿 머신 오픈 소스 VLA 모델의 구현형 인텔리전스 원스톱 연구 서비스 플랫폼
덱스보틱은 체화지능 분야의 파편화와 낮은 연구 효율성 문제를 해결하는 덱스말의 오픈소스 시각-언어-행동(VLA) 모델의 체화지능 원스톱 연구 서비스 플랫폼입니다. 덱스보틱은 파이토치를 기반으로 구현 지능 분야의 파편화와 낮은 효율성 문제를 해결하기 위한 원스톱 연구 서비스 플랫폼입니다...
LongCat-Video - 미션의 LongCat 오픈 소스 비디오 생성 모델
롱캣-비디오는 MIT 오픈 소스 프로토콜을 사용하는 롱캣 팀의 13억 6천만 개 매개변수 비디오 생성 모델 오픈 소스로, 텍스트 생성 비디오, 그래프 생성 비디오 및 비디오 연속의 세 가지 주요 작업을 지원합니다. "거친에서 미세한"생성 전략과 블록 희소주의 메커니즘을 통한 모델은 몇 분 안에있을 수 있습니다 ...
드림옴니2 - HKUST 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델
드림옴니2는 HKUST의 Jiajia 팀이 개발한 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델입니다. 텍스트와 이미지 명령을 동시에 처리할 수 있으며, 여러 참조 이미지를 지원하여 크리에이터에게 보다 유연한 제작 방법을 제공합니다. 이 모델은 3단계 데이터 합성 프로세스, 공동 학습 생성/편집을 통해 훈련됩니다.
혼합 세계 모델 1.1 - 텐센트 혼합 세계, 오픈 소스 3D 재구성 대형 모델 출시
월드미러 1.1(월드미러)은 텐센트 월드미러 팀이 출시한 대형 모델의 오픈 소스 3D 재구성으로, 월드미러 시리즈의 업그레이드 버전입니다. 카메라 위치, 내부 참조, 깊이 맵 등과 같은 멀티뷰 이미지, 비디오 및 멀티 모달 선험적 입력을 지원하며, 기존의 3D 재구성에만 의존하는 방식을 탈피하여...
DeepSeek-OCR - 딥시크릿 오픈 소스 광학 문자 인식 모델
딥시크-OCR은 딥시크 팀이 오픈소스화한 고급 광학 문자 인식(OCR) 모델로, '문맥 광학 압축' 기술을 통해 텍스트를 이미지로 변환하고 압축 및 디코딩에 비주얼 토큰을 사용해 긴 텍스트를 효율적으로 처리합니다.
비타벤치 - MMT 롱캣 오픈소스 대화형 에이전트 리뷰 벤치마크
비타벤치는 메이투안의 롱캣 팀이 발표한 복잡한 생활 시나리오를 위한 최초의 대화형 에이전트 평가 벤치마크로, 실제 생활 시나리오에서 대규모 모델 지능의 종합적인 기능을 평가합니다. 테이크아웃 주문, 레스토랑 식사, 여행의 세 가지 빈도가 높은 생활 시나리오는 패키지를 구축하기 위한 캐리어로 사용됩니다....









