Step-GUI - Step-Star 오픈 소스 AI 에이전트 시리즈 모델
Step-GI는 스텝스타의 오픈 소스 AI 에이전트 시리즈 모델로서, 클라우드 모델인 Step-GUI, GUI 에이전트를 위한 최초의 MCP 프로토콜, 휴대폰 배포를 지원하는 업계 최초의 오픈 소스 엔드사이드 모델인 Step-GUI Edge를 포함합니다.전문화된 ...
A2UI - 에이전트 중심 사용자 상호작용 인터페이스를 위한 Google의 오픈 소스 선언적 프로토콜입니다.
A2UI(에이전트-사용자 인터페이스)는 AI 에이전트를 위한 복잡한 대화형 인터페이스를 생성하는 문제를 해결하는 Google의 오픈 소스 에이전트 중심 인터페이스 프로토콜입니다. AI 에이전트가 사용자 인터페이스, 클라이언트 애플리케이션의 구조를 설명할 수 있는 선언적 JSON 형식을 통해 ...
SAM Audio - 메타의 오픈 소스 멀티모달 오디오 세분화 모델
SAM 오디오는 복잡한 오디오 믹스에서 임의의 대상 사운드를 정확하게 분리하기 위해 메타에서 도입한 오픈 소스 멀티모달 오디오 세분화 모델입니다. 텍스트, 시각 및 시간적 차원의 단서를 결합하여 오디오 편집, 노이즈 제거, 사운드 추출 등의 작업을 유연하고 효율적으로 처리할 수 있습니다.
혼합 월드 모델 1.5 - 텐센트 혼합 오픈 소스 실시간 월드 모델 생성 프레임워크
하이브리드 월드 모델 1.5(텐센트 HY 월드플레이)는 텐센트에서 출시한 업계 최초의 오픈 소스 실시간 월드 모델 프레임워크로, 데이터, 훈련 및 스트리밍 추론 배포의 전체 체인을 포괄합니다. 핵심은 Next-F를 사용하는 WorldPlay 자동 회귀 확산 모델입니다.
몰모 2 - Ai2 오픈 소스 멀티모달 비디오 이미지 이해 모델 제품군
몰모 2는 동영상 및 다중 이미지 이해도를 높이기 위해 Allen Institute for AI(Ai2)에서 출시한 오픈 소스 멀티모달 모델입니다. 몰모 2(8B), 몰모 2(4B), 몰모 2-O의 세 가지 변형이 포함되어 있습니다.
롱캣-비디오-아바타 - 메이투안 오픈 소스 아바타 비디오 생성 모델
롱캣-비디오-아바타는 메이투안에서 오픈소스한 롱캣-비디오를 기반으로 구축한 고급 오디오 기반 비디오 생성 모델로, 자연스러운 역동성과 일관된 정체성을 지닌 초현실적이고 립싱크된 긴 비디오를 생성하는 데 중점을 둡니다.
MiMo-V2-Flash - Xiaomi에서 출시한 오픈 소스 MoE 아키텍처의 대형 모델입니다.
MiMo-V2-Flash는 효율적인 추론과 지능형 신체 애플리케이션에 초점을 맞춘 총 파라미터 3090억 개와 활성 파라미터 150억 개를 갖춘 Xiaomi에서 출시한 오픈 소스 MoE 아키텍처 대형 모델입니다. 이 모델은 하이브리드 주의 집중 아키텍처와 다중 단어 메타 예측 기술을 채택하여 초당 150 토큰의 추론 속도로 ...
네모트론 3 - NVIDIA에서 출시한 오픈 소스 AI 모델 제품군
Nemotron 3는 NVIDIA에서 나노, 슈퍼 및 울트라 크기로 출시한 오픈 소스 AI 모델 제품군입니다. 네모트론 3는 잠재적 MoE 아키텍처를 채택하여 추론 효율을 크게 개선하고 운영 비용을 절감합니다. 그 중 하나는...
Wan-Move - 칭화대 등이 참여한 알리 통이의 오픈 소스 AI 동영상 생성 프레임워크
완무브는 알리 통이 연구소, 칭화대학교 및 기타 기관이 공동 개발한 오픈 소스 AI 비디오 생성 프레임워크로, 정밀한 모션 제어 기술을 통한 고품질 비디오 합성에 중점을 두고 있습니다. 핵심 기술은 기존 이미지 대 비디오 모델에 포인트 수준의 모션 제어를 원활하게 추가 할 수있는 "잠재적 궤적 안내"입니다 ...
PaCoRe - StepStar의 오픈 소스 병렬 협업 AI 추론 프레임워크
PaCoRe(병렬 조정 추론)는 여러 관점에서 동시에 문제 해결책을 탐색하는 대규모 병렬 사고 메커니즘을 통해 전통적인 방식을 뛰어넘는 StepFun의 혁신적인 오픈 소스 병렬 협업 추론 프레임워크입니다....








