AI 공유 서클

AI가 세상을 바꾸고 있습니다!
VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - 미니막스 콘치 비디오 팀의 오픈 소스 비주얼 제너레이티브 모델링 기술

VTP(Visual Tokenizer Pre-training)는 미니막스 콘치 비디오 팀이 비주얼 토큰화(토큰라이저)의 사전 학습 방식을 개선하여 제너레이티브 시스템의 성능을 향상시키기 위해 제안한 비주얼 제너레이티브 모델의 핵심 기술입니다. 기존 방식은...
3 개월 전
030.6K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - Google의 오픈 소스 차세대 인코더-디코더 모델

T5Gemma 2는 Google에서 오픈소스로 제공하는 차세대 인코더-디코더 모델로, 멀티모달 및 긴 컨텍스트 처리 기능으로 업그레이드된 Gemma 3 아키텍처를 기반으로 합니다. 텍스트와 이미지를 포함한 다양한 데이터 유형을 지원하며, 생성 시 매우 긴 컨텍스트(최대 128K)를 처리할 수 있습니다.
3 개월 전
029.5K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - 함수 호출에 최적화된 Google 오픈 소스 경량 AI 모델

FunctionGemma는 2억 7천만 개의 매개변수를 가진 Gemma 3 기본 모델을 기반으로 개발된 Google의 함수 호출에 최적화된 경량 AI 모델로, 휴대폰, 브라우저 및 기타 기기에서 자연어를 실시간으로 실행 가능한 API 명령으로 변환합니다. 핵심 기능은 로컬 오프...
3 개월 전
028.8K
SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - Apple의 오픈 소스 단안경 3D 장면 구성 기술

SHARP(1초 미만의 선명한 단안 보기 합성)는 Apple의 오픈 소스 단안 보기 합성 기술입니다. 1초 이내에 한 장의 사진에서 사실적인 3D 장면을 빠르게 생성할 수 있습니다....
3 개월 전
032.6K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - Microsoft 오픈 소스 대규모 3D 제너레이티브 모델

TRELLIS.2는 40억 개의 파라미터를 갖춘 Microsoft의 오픈 소스 대규모 3D 생성 모델로, 고충실도 이미지에서 3D 생성에 중점을 두고 있습니다. 혁신적인 "O-Voxel"스파 스 복셀 구조를 사용하여 복잡한 토폴로지와 날카로운 특징을 효율적으로 처리하여 전체 PBR 재료로 고품질 3D 정보를 생성 할 수 있습니다 ...
3 개월 전
039K
Step-GUI - 阶跃星辰开源的AI Agent系列模型

Step-GUI - Step-Star 오픈 소스 AI 에이전트 시리즈 모델

Step-GI는 스텝스타의 오픈 소스 AI 에이전트 시리즈 모델로서, 클라우드 모델인 Step-GUI, GUI 에이전트를 위한 최초의 MCP 프로토콜, 휴대폰 배포를 지원하는 업계 최초의 오픈 소스 엔드사이드 모델인 Step-GUI Edge를 포함합니다.전문화된 ...
4개월 전
037K
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI - 에이전트 중심 사용자 상호작용 인터페이스를 위한 Google의 오픈 소스 선언적 프로토콜입니다.

A2UI(에이전트-사용자 인터페이스)는 AI 에이전트를 위한 복잡한 대화형 인터페이스를 생성하는 문제를 해결하는 Google의 오픈 소스 에이전트 중심 인터페이스 프로토콜입니다. AI 에이전트가 사용자 인터페이스, 클라이언트 애플리케이션의 구조를 설명할 수 있는 선언적 JSON 형식을 통해 ...
4개월 전
043.5K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - 메타의 오픈 소스 멀티모달 오디오 세분화 모델

SAM 오디오는 복잡한 오디오 믹스에서 임의의 대상 사운드를 정확하게 분리하기 위해 메타에서 도입한 오픈 소스 멀티모달 오디오 세분화 모델입니다. 텍스트, 시각 및 시간적 차원의 단서를 결합하여 오디오 편집, 노이즈 제거, 사운드 추출 등의 작업을 유연하고 효율적으로 처리할 수 있습니다.
4개월 전
031.8K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

혼합 월드 모델 1.5 - 텐센트 혼합 오픈 소스 실시간 월드 모델 생성 프레임워크

하이브리드 월드 모델 1.5(텐센트 HY 월드플레이)는 텐센트에서 출시한 업계 최초의 오픈 소스 실시간 월드 모델 프레임워크로, 데이터, 훈련 및 스트리밍 추론 배포의 전체 체인을 포괄합니다. 핵심은 Next-F를 사용하는 WorldPlay 자동 회귀 확산 모델입니다.
4개월 전
032.4K
Molmo 2 - Ai2开源的多模态视频图像理解模型系列

몰모 2 - Ai2 오픈 소스 멀티모달 비디오 이미지 이해 모델 제품군

몰모 2는 동영상 및 다중 이미지 이해도를 높이기 위해 Allen Institute for AI(Ai2)에서 출시한 오픈 소스 멀티모달 모델입니다. 몰모 2(8B), 몰모 2(4B), 몰모 2-O의 세 가지 변형이 포함되어 있습니다.
4개월 전
037.5K