AI 공유 서클

최신 AI 제품, 프로젝트, 프레임워크, 논문 해석 등을 매일 공유합니다.
Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型

Skywork UniPic 2.0 - 쿤룬완웨이의 효율적인 오픈 소스 멀티 모달 모델링

스카이워크 유니픽 2.0은 이미지 생성, 편집, 이해에 초점을 맞춘 효율적인 멀티모달 모델로, 퀸테센스가 오픈소스로 제공합니다. 이 모델은 2B 매개변수 SD3.5-Medium 아키텍처를 기반으로 하며 사전 교육, 점진적인 이중 작업 강화 전략 및 공동 교육을 통해 실현됩니다....
8개월 전
045.1K
RynnRCP - 阿里达摩院推出的首个开源机器人上下文协议

RynnRCP - 알리 다르마 연구소의 첫 오픈 소스 로보틱스 컨텍스트 프로토콜

RynnRCP는 알리 다르마 연구소의 오픈 소스 로봇 컨텍스트 프로토콜(RCP)로, 구현된 지능 개발의 문턱을 낮추고 전체 개발 과정을 개방합니다.RynnRCP는 RCP 프레임워크와 로봇모션 모듈로 구성되며, 기능 추상화와 다중 프로토콜 지원을 통해 RCP 프레임워크는...
8개월 전
050.2K
RynnEC - 阿里达摩院开源的世界理解模型

RynnEC - 알리 다르마 연구소의 오픈 소스 세계 이해 모델

린넥은 알리바바 달마 연구소에서 도입한 세계 이해 모델로, 구체화된 지능 작업에 중점을 두고 있습니다. 이 모델은 비디오 데이터와 자연어를 결합한 멀티모달 융합 기술을 기반으로 하며, 장면의 객체를 여러 차원에서 파싱하여 객체 이해, 공간 인식, 비디오 대상 분할 등의 기능을 지원할 수 있습니다.
8개월 전
051K
Matrix-3D - 昆仑万维开源的3D世界生成框架

Matrix-3D - 쿤룬 월드 와이드 오픈 소스 3D 월드 생성 프레임워크

Matrix-3D는 탐색 가능한 파노라마 3D 월드를 생성하는 데 중점을 둔 스카이워크 AI 팀의 오픈 소스 프레임워크입니다. 이 프레임워크는 파노라마 비디오 생성 및 3D 재구성 기술을 결합하여 단일 이미지 또는 텍스트 프롬프트에서 고품질의 전방향 탐색 가능한 3D 월드를 생성합니다....
8개월 전
051.6K
GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V - 스마트 스펙트럼의 멀티모달 오픈 소스 시각적 추론 모델

GLM-4.5V는 스마트 스펙트럼에서 도입한 세계 최고의 오픈 소스 시각적 추론 모델로, 총 매개변수가 1,060억 개, 활성화된 매개변수가 120억 개에 달합니다. 이 모델은 강력한 시각적 이해 및 추론 기능을 갖춘 차세대 텍스트 기반 모델 GLM-4.5-Air를 기반으로 학습되어 이미지, 비디오, 동영상 등을 처리할 수 있습니다.
8개월 전
050.7K
Genie 3 - 谷歌推出的通用世界模型

Genie 3 - Google의 일반 세계 모델

Genie 3는 매우 역동적이고 일관된 가상 세계를 실시간으로 생성할 수 있는 Google DeepMind의 차세대 범용 세계 모델로, 물리 현상과 자연 생태계를 시뮬레이션하고 판타지 및 역사 시나리오를 생성할 수 있도록 지원합니다. 텍스트 프롬프트를 통해 사용자는 ...
8개월 전
045.2K
Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 - Anthropic의 가장 강력한 프로그래밍 모델

Claude Opus 4.1은 복잡한 작업을 효율적으로 처리할 수 있도록 설계된 Anthropic의 최신 대규모 언어 모델입니다. 이 모델은 프로그래밍 영역에서 탁월한 성능을 발휘하여 고품질 코드를 생성하고 최대 32k의 단일 출력을 지원하며 다양한 프로그래밍 스타일에 적응할 수 있습니다....
8개월 전
045.1K
gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss - OpenAI의 오픈 소스 추론 모델 제품군

gpt-oss는 개발자를 위한 효율적이고 유연하며 배포하기 쉬운 AI 솔루션을 지원하는 OpenAI의 오픈 소스 추론 모델 제품군으로, 117억 개의 파라미터와 8개의 언어를 지원하는 gpt-oss-120B의 두 가지 버전으로 제공됩니다.
8개월 전
043K
MiDashengLM - 小米开源的声音理解模型

MiDashengLM - 샤오미의 오픈 소스 사운드 이해 모델

MiDashengLM은 오디오 처리 및 이해에 중점을 둔 특정 매개 변수 버전 MiDashengLM-7B를 갖춘 효율적인 사운드 이해를 위한 Xiaomi의 오픈 소스 대형 모델입니다. 이 모델은 샤오미 다셩 오디오 인코더와 Qwen2.5-Omn을 기반으로 합니다.
8개월 전
045K
MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD - 칭화 연구소의 오픈 소스 이중 언어 대화 음성 생성 모델

MOSS-TTSD는 칭화대학교의 음성 및 언어 연구소에서 개발한 오픈 소스 음성 대화 모델입니다. MOSS-TTSD는 텍스트 대화 스크립트를 자연스럽고 부드럽고 표현력 있는 대화 음성으로 변환할 수 있으며 영어와 중국어로 이중 언어 생성을 지원합니다.
8개월 전
047.8K